1V-9
MapReduceによる類似フレーズクラスタリング
○熊南昂司,関 和広,上原邦昭(神戸大)
言語表現の多様性から,二つの語間の表層的な不一致は必ずしも意味的な不一致を意味しない.たとえば,carとautomobileは表層的には異なるものの,いずれも自動車を意味する.複数の語からなる句(フレーズ)の場合,表層と意味の不一致はさらに増加する.表層的に異なるフレーズ間の意味的な一致を判定することは,談話理解・生成においてきわめて重要である.本研究では,大規模なコーパスから抽出した大量のフレーズとその周辺文脈を基に階層的なクラスタリングを行うことで,意味的に類似したフレーズを同定する.また,大規模データに対応するため,MapReduceプログラミングモデルに適した効率的なクラスタリングアルゴリズムを提案する.