(邦訳:確率値制約のもとでの非負値行列分解に関する研究)
![]() |
伊藤 寛祥 筑波大学図書館情報メディア系 助教 |
キーワード
行列分解 | 教師なし学習 | 確率モデル |
[背景]膨大な情報を圧縮・要約する技術として非負値行列分解が存在
[問題]入出力行列の値が確率値でないため,確率論的な議論ができない
[貢献]入出力行列の値が確率値になることを保証する行列分解手法を提案
情報技術の発展によって,巨大なデータが世の中にあふれているが,それらの多くは行列というデータ構造で表現できる.一般に,ものごとの関係を表すデータは行列として表現することができ,その例として,SNSにおけるユーザの人間関係や,ユーザの購買履歴,文書データ,音声信号データなどが存在する.このような行列に対する分析技術として行列分解という手法が存在する.この手法は巨大な入力行列を低ランクな行列の積に分解するもので,これによって膨大な情報を圧縮したり,入力データ中に存在する隠れた構造を発見することに応用される.行列分解は教師なし学習に分類される手法の一つで,データマイニングや機械学習における要素技術である.
行列分解のなかでも非負値行列分解という手法は,入出力行列が非負の値を持つという制約のもとで行列分解を実現する手法である.出力結果が人間にとって解釈しやすいという利点から,データマイニング技術において広く用いられており,たとえば文書データの中からのトピックの抽出や,ネットワークデータからのコミュニティの抽出,情報推薦技術などに応用されている.
機械学習やデータマイニングの多くの手法では,モデルに関して確率論的な解釈を行い,モデルの妥当性,信頼性,解釈性を保証する.たとえばデータが生成される過程とその確率をモデルで表現したり,複数のタスクを確率値の解釈のもとで協調させたり,モデル自身からデータが出現する確率値を計算したりする.しかしながら,既存の非負値行列分解は,入出力行列の値が確率値になることが保証されず,確率論的な議論ができないという限界が存在した.
そこで本研究では,入出力行列が確率値になることが保証される行列分解アルゴリズムを実現した.より具体的には,非負値行列分解の最適化問題において,出力行列の和が1になるという制約が新たに加わった問題のもとで非負値行列分解を実現する.ここで,本研究のアルゴリズムは微分可能な目的関数に広く適用できるように設計されており,非負値行列分解と同等に自由なモデルを設計し最適化することができる.これにより,たとえば複数種類のタスクを組み合わせたデータマイニング手法など,複雑なモデルでも確率値としての解釈を与えることができる.さらに提案アルゴリズムは通常の非負値行列分解と計算量が等しく,遜色ない計算時間でアルゴリズムを実行できることを示した.
さらに本研究ではこれを利用し,複数種類のタスクを組み合わせたデータマイニング手法として,複数種類の属性を持つグラフからのコミュニティ検出と,属性値のクラスタ検出を協調的に行う手法を提案した.この手法ではそれぞれのタスクに関する目的関数を非負値行列分解に基づいて設計し,複数のタスクを確率値の解釈のもとで協調的にモデリングした.実験の結果,確率値の解釈を与えない場合のモデルと比較して精度が向上したことから,より効果的にタスクを協調させることに成功したことを示唆している.
[貢献]入出力行列の値が確率値になることを保証する行列分解手法を提案
情報技術の発展によって,巨大なデータが世の中にあふれているが,それらの多くは行列というデータ構造で表現できる.一般に,ものごとの関係を表すデータは行列として表現することができ,その例として,SNSにおけるユーザの人間関係や,ユーザの購買履歴,文書データ,音声信号データなどが存在する.このような行列に対する分析技術として行列分解という手法が存在する.この手法は巨大な入力行列を低ランクな行列の積に分解するもので,これによって膨大な情報を圧縮したり,入力データ中に存在する隠れた構造を発見することに応用される.行列分解は教師なし学習に分類される手法の一つで,データマイニングや機械学習における要素技術である.
行列分解のなかでも非負値行列分解という手法は,入出力行列が非負の値を持つという制約のもとで行列分解を実現する手法である.出力結果が人間にとって解釈しやすいという利点から,データマイニング技術において広く用いられており,たとえば文書データの中からのトピックの抽出や,ネットワークデータからのコミュニティの抽出,情報推薦技術などに応用されている.
機械学習やデータマイニングの多くの手法では,モデルに関して確率論的な解釈を行い,モデルの妥当性,信頼性,解釈性を保証する.たとえばデータが生成される過程とその確率をモデルで表現したり,複数のタスクを確率値の解釈のもとで協調させたり,モデル自身からデータが出現する確率値を計算したりする.しかしながら,既存の非負値行列分解は,入出力行列の値が確率値になることが保証されず,確率論的な議論ができないという限界が存在した.
そこで本研究では,入出力行列が確率値になることが保証される行列分解アルゴリズムを実現した.より具体的には,非負値行列分解の最適化問題において,出力行列の和が1になるという制約が新たに加わった問題のもとで非負値行列分解を実現する.ここで,本研究のアルゴリズムは微分可能な目的関数に広く適用できるように設計されており,非負値行列分解と同等に自由なモデルを設計し最適化することができる.これにより,たとえば複数種類のタスクを組み合わせたデータマイニング手法など,複雑なモデルでも確率値としての解釈を与えることができる.さらに提案アルゴリズムは通常の非負値行列分解と計算量が等しく,遜色ない計算時間でアルゴリズムを実行できることを示した.
さらに本研究ではこれを利用し,複数種類のタスクを組み合わせたデータマイニング手法として,複数種類の属性を持つグラフからのコミュニティ検出と,属性値のクラスタ検出を協調的に行う手法を提案した.この手法ではそれぞれのタスクに関する目的関数を非負値行列分解に基づいて設計し,複数のタスクを確率値の解釈のもとで協調的にモデリングした.実験の結果,確率値の解釈を与えない場合のモデルと比較して精度が向上したことから,より効果的にタスクを協調させることに成功したことを示唆している.

(2020年5月29日受付)