4R-7
自然言語テキストからの概念記述言語CDL構造の半自動抽出
○山口清弘,石塚 満(東大)
既に広く存在する電子データ化された自然言語テキストを概念記述
言語であるCDLの表現に翻訳することは,言語をまたいだ情報検索や
情報抽出を実現する上で大きな意味を持つ.自然言語テキストには
統語的な情報や意味的な情報が欠落していることから,これを実現
するためには様々な自然言語処理における手法を駆使するだけでな
く,人手によるフィードバックを利用することが不可欠である.
本研究では,Markov Logic と呼ばれる機械学習の手法
を用いて,自然言語テキストから可能性の高いCDL表現を抽出する.
そして人手による正しい候補の選択を学習にフィードバックさせて
いくことにより,抽出の精度が改善されていくことを確認する.