4N-02
コンテンツ解析を含む大規模データ分析処理に対するトレーサビリティ
○山田真也,天笠俊之,北川博之(筑波大)
データに対する信頼性を高める目的のために,大規模データ分析処理から出力されたデータがどの入力データによって導出されたかという来歴情報(Lineage)を求めたいというニーズが存在する.
近年ではそのような分析処理に,機械学習を用いた顔認識やエンティティリンキングのような高度なコンテンツ解析が含まれることも多い.
本研究では,コンテンツ解析を利用者定義関数(UDF)として扱い,これらの大規模データ分析処理をリレーショナルモデルにUDFを組み合わせた処理フローとしてモデル化し,来歴情報を求めるための問合せ処理やその最適化,システムの実装について報告する.