情報処理学会第84回全国大会講演論文集

1W-01

特許文書構造を利用したBERTによる事前学習

○湯浅亮也，谷　和樹，田村晃裕（同志社大），伊藤和真，大林弘明（トランスコスモス），加藤恒夫（同志社大）

近年，様々な自然言語処理のタスクで，汎用的な分散表現を事前学習するBERTを活用することで最高精度が達成されている．従来のBERTモデルは文単位でトークンのまとまりを捉え，文章における各文の位置づけは考慮しない．一方，特許文書は，段落単位でまとめられて記述されており，【背景技術】や【発明の概要】などの見出しラベルにより構造化されている．そこで本研究では，段落単位で処理することで段落単位のまとまりを捉え，見出しラベルの情報を取り入れて学習を行う，特許文書のためのBERTによる事前学習手法を提案する．特許文書のクラスタリングの実験を行い，提案手法の方が従来のBERTよりも高いクラスタリング精度を実現できることを確認した．