4N-01
ファイル名を特徴量とする重複データ検出方式
○横山ひなた,岩本和真,安藤一秋,亀井仁志(香川大)
バックアップの容量削減に重複排除が用いられている。重複排除は重複判定のため多数のファイルを読み込み比較するためI/O負荷が高くなる。そのため先にファイルを絞り込み、読み込み件数を削減する。従来の絞り込み方式は、ファイルのサイズやハッシュ値などを特徴量として用いる。
しかし、同一サイズのファイルが多数格納される場合やサイズの大きなファイルのハッシュ値を生成する場合など、それらの特徴量の効果が低下して負荷が高まることがあり、絞り込み方式として不十分である。 そこで、ファイルの要約ともいえるファイル名を特徴量に追加し負荷を抑制する。
本稿ではファイル名を利用した絞り込み方式の検証結果を述べる。