抄録
E-024
Smart Dictionary実用化に向けた教師データ量とNER精度評価について
照屋絵理・愛甲和秀・竹内 理(日立)
企業内に蓄積されたテキストデータから,作業効率化や生産性向上等の業務改善に寄与する知識を抽出・構造データ化し,活用するニーズが高まりつつある。我々は,ユーザから入力された少ない業務知識とテキストデータを教師データとして,弱教師学習により業務知識を拡充するツールを開発している。しかし,ユーザ所望の知識量を得るために必要な教師データ数がわからず試行錯誤が発生し,データ準備工数がかかるという問題があった。そこで本報告では,求める知識量を得るために必要最低限の教師データ量を最大5ステップで見積もる手法を提案した。これによりデータ準備工数が従来と比較し最大3/5となる見込みを得た。