1J-07
Ruby における Unicode プロパティ処理の拡張と効率化
○小山拓美,松原俊一,Martin Duerst(青学大)
多言語のテキスト処理では正規表現の文字クラスとして, Unicode 文字プロパティが使用可能である.例えばテキスト中の大文字のみを抽出する処理ができる.他のスクリプト言語に比べ, Ruby では多値のプロパティのサポートが少ない.本研究は Ruby で使用できる Unicode 文字プロパティの範囲を拡大する.プロパティの値が全て共通の文字が多いことに着目し,プロパティ値ごとの反転リストでの二分探索から DAG でのテーブル探索に置き換える.これにより,多値プロパティのサポートを容易にし,高速化と省メモリ化を実現した.さらに,正規表現によりあるプロパティ値にマッチするだけではなく,ある文字のあるプロパティへの直接的な問合せも可能となる.

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会