情報処理学会 第86回全国大会 会期:2024年3月15日~17日

7ZK-03
日中同形異義語の意味分析と可視化:言語横断的意味研究の一環として
○韓  禾,伊藤貴之(お茶の水女子大)
中国語と日本語は多くの共通漢字を持ち、同じ漢字を使用した熟語も存在する。例えば、「検討」、「質問」、「連想」などがある。しかし、これらの同形異義語は、言語間で異なる意味を持つことがある。本研究では、中日同形異義語の意味の違いを可視化し、そのパターンを探求する。
本研究は、同形異義語の意味の列挙、SimCSEモデルによる文埋め込みの生成、そしてPCAとK-Meansクラスタリングによる文埋め込みの可視化の三段階で構成される。特に、文埋め込み間の角度に基づくクラスタリングにより、中日同形異義語の意味の違いが明確に示された。異なるクラスタが特定され、言語間の意味の違いを示す興味深い結果が得られた。本報告では、これらのクラスタから得られた結果と具体的な事例を紹介する。