1W-02
マルチタスク学習による講演テキストへの読点と改行の自動挿入
○方 之成(名大),村田匡輝(豊田高専),松原茂樹(名大)
音声認識技術を用いて講演などの音声を自動でテキスト化し字幕として提示することで,聴衆の理解を支援することができる. 一般的には音声認識技術は改行や読点のないテキストを出力するが,そのような字幕は読みづらいという問題がある. そこで本発表では,講演テキストへ改行と読点を同時に挿入する方法を提案する. 講演テキストに改行と読点を挿入したデータを用い,改行挿入タスクと読点挿入タスクのマルチタスク学習によりBERTモデルのファインチューニングを行う. 日本語講演データを使用した実験では,読点と改行を順番に挿入する手法よりも高い精度を達成し,本手法の有効性を確認した.