情報処理学会 第86回全国大会 会期:2024年3月15日~17日

6M-04
BERTopic分類器における文書分類の安定性評価
○櫻井勇気,小林亜樹(工学院大)
BERTopicは埋め込み表現や分類手法の変更を可能とするライブラリを用いたトピックモデリング手法であり、事前に学習されたTransformerベースの言語モデルと任意の分類手法によるクラスタリングを行う。BERTopicによるHDBSCANを用いた文書分類器はLDAなど従来の分類手法よりも高い性能を持つことが知られているが、分類を行うたびにクラスターが変化するために出力が安定しない。本論文では、文書分類器による出力の安定性を考慮した評価手法を提案する。また異なる埋め込み表現を持つ複数の分類器について、提案した評価手法を用いた評価と考察を行う。