情報処理学会 第84回全国大会 会期:2022年3月3日~5日 情報処理学会 第84回全国大会 会期:2022年3月3日~5日

1W-04
Transformerモデルによる法律関係文書の自動匿名化
○関 泰明,濱上知樹(横浜国大)
裁判の判例や弁護士への相談文書などの法律関係文書は一般に公開されて広く利用されるようになることが企業や弁護士の法務活動において重要である.しかし膨大なテキストに対する匿名化処理がボトルネックとなり公開が進んでいない.また匿名化タスクでは単語を匿名化するという判断のために前後の文脈を考慮する必要があるため,ルールベースでの自動化は困難である.そこで本稿ではTransformer系の自然言語処理モデルであるBARTを用いた法律関係文書の匿名化を提案する.さらに匿名化する単語クラス間の量の不均衡や大量の学習データを得るのが難しいことなどの問題へ対処するため,データ拡張を施して学習を行う.