情報処理学会ホームページ
FIT2014 第13回情報科学技術フォーラム 開催日:2014年9月3日(水)~5日(金) 会場:筑波大学筑波キャンパス 一般社団法人電子情報通信学会 情報・システムソサイエティ 一般社団法人電子情報通信学会 ヒューマンコミュニケーショングループ 一般社団法人情報処理学会 筑波大学
抄録
E-006
日本語の文の平均像を体現した文を探す (1)文の特徴量の抽出
刀山将大・佐藤理史・近藤 秀・吉田達平(名大)
日本語の平均像を体現した文とはどのような文であろうか。
この問いに答えるために、本研究では、日本語に関する初めての大規模均衡コーパスである「現代日本語書き言葉均衡コーパス」の書籍の解析済みデータを利用し、日本語の文の平均像を体現した文を探すことに取り組んだ。
本論文では、この取り組みのパート1として、各文に対して文字長・長単位語数・短単位語数・文節数・品詞分布などの特徴量を求め、文を特徴ベクトルとして変換した。
その後、各特徴量の中央値・平均値・分散などの統計量を算出した。