2V-04
トピック中心文とキーワードを用いたTextRankによる抽出型要約の冗長性削減の提案
○蔡 宇鋒,望月久稔(大阪教大)
TextRankは少ないデータでよい精度を出せる特徴があるため,抽出型要約でよく用いられるが,冗長性があるため改善を図る.実験結果より,ニュース記事をLDAでトピックに分けた場合の中心文に重要な情報は多いが,文が長い特徴がある.各トピックに属する文の単語とそのトピックのキーワードとの平均共起回数が多いと考え,「トピック中心文との類似度で各文に点数をつける」,「LDAで分けたトピックのキーワードと各文の共起回数,文の単語数情報で,同一トピックから冗長で重複する文の抽出を制限する」ことを提案する.抽出文の質と冗長性をそれぞれRougeとcos類似度で評価する.