情報処理学会 第88回全国大会

2D-02
リソース制約環境下における小規模言語モデルへのドメイン知識注入手法の検討
○井上拓真(三菱電機ソフトウエア)
本研究は,ネットワークや計算資源の制約により外部知識利用や大規模言語モデルの適用が困難な環境を想定し,小規模言語モデルへの効率的なドメイン知識注入手法を検討する.提案手法では,特殊トークンを用いてドメイン情報を明示する.継続事前学習には,複数のデータ拡張を施した後に特殊トークンを付与したコーパスを用いる.一方,指示チューニングには,質問文に特殊トークンを付与したQ&Aデータを利用する.独自ドメインのQ&Aベンチマークを用いた評価において,提案手法は特殊トークンとデータ拡張を用いない場合と比較して正答率が12%向上し,有効性を確認した.