最終更新日：2008.11.7
第188回自然言語処理研究発表会

----------------------------------------------------------------------
情報処理学会 第188回自然言語処理研究会
論文募集
----------------------------------------------------------------------
◎ 日程: 2008年11月26日（水） 13:30～18:00
                   27日（木） 10:00～16:15

◎ 会場: 九州大学 伊都キャンパス
         ウエスト2号館3F システム情報科学研究院大講義室 （313号室）
         〒819-0395 福岡市西区元岡744
         交通案内 http://suisin.jimu.kyushu-u.ac.jp/info/
         キャンパスマップ http://www.kyushu-u.ac.jp/access/map/ito/ito.html

◎ ホームページ
   http://nl-ipsj.r.dl.itc.u-tokyo.ac.jp/

◎ 照会先:

   * 研究会に関する問い合わせ先:
     自然言語処理研究会幹事
     宮尾 祐介 （東京大学）
     E-mail: yusuke （at） is.s.u-tokyo.ac.jp
     Tel: 03-5841-4088

   * 会場に関する問い合わせ先:
     冨浦 洋一 （九州大学）
     E-mail: tom （at） is.kyushu-u.ac.jp
     Tel: 092-802-3584

【プログラム】 （発表件数17件）

11月26日（水）
[13:30～15:00] ●文書分類・要約                  [3件]
[15:15～16:45] ●機械学習・応用                  [3件]
[17:00～18:00] ●スパム検出・類似性評価          [2件]

11月27日（木）
[10:00～11:30] ●含意関係認識・解析・語彙        [3件]
[13:00～14:30] ●機械翻訳・言語識別              [3件]
[14:45～16:15] ●マイニング・知識獲得・固有表現  [3件]

============================================================

11月26日（水） 13:30～18:00

■ 13:30～15:00  文書分類・要約 （3件） ■

（1） 説明の観点に基づくテキストの分類と要約

    ○藤井 敦， 三條場 旭彦（筑波大）

    Webや特許情報から抽出した事典的な説明情報を観点に基づいて自動的に分
    類や要約する手法を提案する．

（2） 相互類似性と配信時間差に基づくWebニュース冗長記事のフィルタリング

    ○吉田 光範， 藤沢 匡哉， 八嶋 弘幸（東京理科大）

    本研究は、複数のニュースサイトから配信されるWebニュース記事郡から、
    冗長な記事を取り除く手法を提案する。

（3） Small World構造を用いた関連記事集合中の重要記事の判定

    ○江越 良太， 永井 秀利， 中村 貞吾（九工大）

    関連記事集合の絞込みを行う際，内容の網羅性や話題の連続性を保つため
    に必要な記事をグラフ構造を用いて判定する．

■ 15:15～16:45  機械学習・応用 （3件） ■

（4） 素性選択によるアンサンブル学習に関する一考察

    ○高橋 和子（敬愛大）

    サポートベクターマシンによる文書分類において、事例ではなく素性の選
    択によるバギングの有効性を調査した。

（5） キーワード抽出の整数計画問題としての定式化

    ○乾 孝司， 橋本 泰一， 高村 大也， 内海 和夫， 石川正道（東工大）

    キーワード抽出を整数計画問題として定式化し，語単体の特徴量と語共起
    に基づく特徴量を同時に適切に反映できる手法を提案する．

（6） 講演テキストにおける読みやすさを考慮した改行位置同定

    ○村田 匡輝， 大野 誠寛， 松原 茂樹（名大）

    読みやすい字幕を生成することを目的に、機械学習による日本語講演文へ
    の改行挿入手法を提案する。

■ 17:00～18:00  スパム検出・類似性評価 （2件） ■

（7） ウェブサイト間の類似度を用いたウェブスパムの検出

    ○北村 順平， 青野雅樹（豊橋技科大）

    検出対象のウェブサイトに加え、それと隣接するウェブサイトを解析する
    ことで ウェブスパムの検出を行う。

（8） 形態素出現パタンに基づく文書集合類似性評価

    ○小山 照夫（国立情報学研究所）， 竹内 孔一（岡山大）

    文書集合同士の類似性をそれぞれの集合における形態素出現パタンから評
    価し、各形態素の寄与を推定する

============================================================

11月27日（木） 10:00～16:15

■ 10:00～11:30  含意関係認識・解析・語彙 （3件） ■

（9） LFG解析と語彙資源を利用した日本語含意関係判定

    ○梅基 宏， 杉原 大悟， 大熊 智子， 増市 博（富士ゼロックス）

    語彙概念や意味役割を解析する日本語意味解析システムを構築し、文間の
    論理的な含意関係を判定する実験を行い評価した。

（10） 格助詞「に」の深層格推定 －格助詞の意味再考－

     ○田辺利文， 吉村賢治， 首藤公昭（福岡大）

     格助詞「に」を介した係り受け関係にある名詞と述部によって、深層格を
     詳細に推定するモデルを提案する。

（11） 辞書見出し語の9，10文字漢字熟語を対象とした語基構成の解析

     ○梅木定博， 後藤智範（神奈川大）

     9，10文字漢字熟語について、構成語基の構成語基数、品詞並び、係り受け
     を調査し、その結果と問題点について考察した。

■ 13:00～14:30  機械翻訳・言語識別 （3件） ■

（12） 統計翻訳における，単文と重文複文の翻訳精度の評価

     ○猪澤 雅史， 村上 仁一， 徳久 雅人， 池原 悟（鳥取大）

     本研究では，実験データを単文と重文複文に分類し翻訳実験を行った．そ
     の結果，重文複文の翻訳に学習データとして単文が有効であるという結果
     を得た．

（13） Analyzing Kanji-Hanzi Mappings by Aligning Translation Equivalents

     ○Xiao Liu，Takashi Tsunakawa，Naoaki Okazaki，Jun'ichi Tsujii（東大）

     This paper analyzes the similarity between kanji and hanzi， which
     are two typical ideo-graphic characters in the Eastern Asia. We
     al-so propose a probabilistic model that associates kanji and
     hanzi characters based on the Statistical Machine Translation
     （SMT） model. For constructing our probabilistic model， we mine
     bilingual translation equiva-lents and obtain Japanese-Chinese
     translation pairs from two existing bilingual dictionaries， the
     Japanese-English dictionary and the Chi-nese-English
     dictionary. We apply our model for translating the Japanese
     technical terms in-to Chinese. Our experiments show that using
     the kanji-hanzi mapping， which is based on aligning translation
     equivalents， could im-prove the quality of the obtained
     translation candidates. Our model outperformed baseline systems，
     achieving 56.4% of translation accu-racy. The experimental
     results demonstrate that the proposed approach is quite effective
     in associating kanji and hanzi and improving the translation
     accuracy of technical terms.

（14） 仮説検定に基づいた言語識別

     ○水田 貴章， 柴田 雅博， 冨浦 洋一（九大）

     言語間の n-gram 確率の比を仮説検定を利用して求める，n-gram モデル
     を 統計的言語モデルとした言語識別について報告する．

■ 14:45～16:15  マイニング・知識獲得・固有表現 （3件） ■

（15） 二語の共通周辺文字列の長さに着目した語文脈類似判定

     ○折原 幸治， 梅村 恭司（豊橋技科大）

     データマイニングでは、コーパス中の文脈からある二語の関係の有無を判
     定する問題がある。本報告では、この問題に対し対象の二語の前後に共通
     した文字列の長さに着目する方法を提案する。この問題では、対象の二語
     の隣接単語や隣接修飾語のそれぞれについて、統計値を計数して総合判定
     することがよく行われるが、本手法ではコーパス中から集めた文字列の長
     さが上位n件までの文字列のみを用いて判定を行う。実験の結果、評価が
     高い上位100件の単語対を手動で正誤判定したところ、89件の正解を得た。

（16） Applying a contextual approach for collecting common sense
     statements to English and Bulgarian

     ○Svetoslav Dankov，Rafal Rzepka，Kenji Araki（Hokkaido Univ.）

     Our paper intends to build on an approach for collecting common
     sense statements automatically， utilizing both the semantic and
     syntactic context of text. We explore the viability of our
     approach， its application to another language （Bulgarian） and
     present our experimental results.

（17） 拡張固有表現タグ付きコーパスの構築

     ○橋本 泰一， 乾 孝司（東工大）， 村上 浩司（奈良先端大）

     「関根の拡張固有表現階層」定義に基づき構築した固有表現タグ付きコー
     パス（新聞記事：約8000記事，白書：約400文書）について報告する．