情報処理学会ホームページ
FIT2013第12回情報科学技術フォーラム 開催日:2013年9月4日(水)~6日(金) 会場:鳥取大学鳥取キャンパス
抄録
RD-002
多重仮説文書構造ネットワークを用いたデータ抽出方式の開発
関 峰伸・小林義行・芳賀憲行・石田響子・藤尾正和・平山淳一・永崎 健(日立)
仕様書からのデータ抽出方式を開発した。本方式は,複数のレイアウト構造を表現する多重仮説文書構造ネットワークと,仕様項目の階層構造とデータの種類が記載されている階層付項目辞書の構造を照合する。そのため,レイアウト構造の曖昧性を低減しながらデータを抽出できる。複数のデータ候補を抽出し表示するGUIを持つ。1 位の候補に誤りがある場合も,他からデータを探すことができる。PDF文書中の文字と罫線を用いるため,紙文書も電子文書も区別なく処理することができる。累積正解率は,85.3~97.6%%が得られた。ツールを用いてデータ入力した場合と手作業で入力の場合を比較した。作業時間が1/3~2/3 となった。