情報処理学会第85回全国大会 会期:2023年3月2日~4日 会場:電気通信大学

1L-05
単語IDのremappingによるダブル配列言語モデルの効率化
○幡鉾勇哉,山本幹雄(筑波大)
remappingはTRIE木データ構造を用いた言語モデルにおいて、TRIE木の深さに応じて単語IDを付け替えることにより、子ノード集合への分岐のID幅を小さくする手法である。もともとはSorted arrayで実装されたTRIE木をElias-Fanoコーディングを用いて圧縮する際の圧縮効率を高めるために考案された手法である。我々は子ノード集合への分岐のID幅を小さくする手法はダブル配列の構築の高速化・コンパクト化にも効果があると考え、remapping手法をダブル配列で実装された言語モデルの効率化に応用することを提案する。remappingする際のコンテキストの組み合わせのいくつかについて実験を行い、構築速度とモデルサイズについて、性能の向上を確認した。