1W-01
事前学習済みBERTに適する新トークン表現獲得手法の開発と評価
○三谷一真,松井くにお(金沢工大)
大規模言語モデル(LLM)の普及に伴い、独自の言語資源を活用するニーズが生まれた。しかし、言語モデルは事前学習時に扱えるトークンの種類が決まるため、独自の言語データを扱う際に、ドメイン固有の単語が不自然に分割されるという課題がある(例: BE|R|T, 矢|場|と|ん)。この課題に対処するため、事前学習済み言語モデルに新しいトークンを組み込む方法を開発する。試行錯誤と評価を通じて、独自の言語資源と事前学習済み言語モデルから、言語モデルに適した新しいトークン表現を得る方法を探る。