5D-06
著者識別モデルの LoRA による注目単語の変化に関する考察
○櫻井 航,浅野雅人,井元大輔,本間正勝,黒沢健至(科学警察研)
Transformerなどのパラメータ数が膨大なモデルにおいては、事前学習済みモデルの個別タスクに向けたファインチューニングが一般的である。なかでもLoRA(Low-Rank Adaptation)は、元のモデルのパラメータの更新を行わず、線形層にパラメータ更新可能な低ランク行列の積を足し合わせる手法で、その前後でモデルの構造を変えないため、各層の変化がタスク固有の注目方法に直結していると考えられる。本研究ではXLM-RoBERTaを対象に、著者識別タスク向けのLoRA前後で文頭のトークンからAttentionされる単語の傾向の変化を分析したところ、一般的なファインチューニング手法と同様、出力層に近いレイヤーにおける重みづけが大きく変化しており、重みが最大・最小の単語も変化していることが確認できた。