情報処理学会 第84回全国大会 会期:2022年3月3日~5日 情報処理学会 第84回全国大会 会期:2022年3月3日~5日

1W-01
特許文書構造を利用したBERTによる事前学習
○湯浅亮也,谷 和樹,田村晃裕(同志社大),伊藤和真,大林弘明(トランスコスモス),加藤恒夫(同志社大)
近年,様々な自然言語処理のタスクで,汎用的な分散表現を事前学習するBERTを活用することで最高精度が達成されている.従来のBERTモデルは文単位でトークンのまとまりを捉え,文章における各文の位置づけは考慮しない.一方,特許文書は,段落単位でまとめられて記述されており,【背景技術】や【発明の概要】などの見出しラベルにより構造化されている.そこで本研究では,段落単位で処理することで段落単位のまとまりを捉え,見出しラベルの情報を取り入れて学習を行う,特許文書のためのBERTによる事前学習手法を提案する.特許文書のクラスタリングの実験を行い,提案手法の方が従来のBERTよりも高いクラスタリング精度を実現できることを確認した.