(邦訳:画像の高水準認知理解による言語化に関する研究)
Bei Liu Microsoft Research Asia, Researcher |
キーワード
画像処理 | 言語処理 | 認知理解 |
[背景]高水準認知理解における画像と言語間の関係性はいまだ明らかになっていない
[問題]言語と画像など,異なるモダリティ間の関係性理解はそれらの表現方法の違いのため難しい問題である
[貢献]我々は高水準認知の視点から画像と言語の差異を埋める方法を提案した
デジタルカメラやスマートフォンなどの普及により,画像はより一般的な表現手段・コミュニケーション手段になってきている.他方,もう1つのコミュニケーション手段として,言語も欠かせない要素の1つである.しかしながら,画像と言語間の関係性,特に高水準認知における関係性はいまだ明らかになっておらず,人間が両方のモダリティ,すなわち,画像と言語にかかわる課題を日常的に行えているにもかかわらず,コンピュータによる両者の関係性の理解は挑戦的な課題の1つであると考えられている.本研究では,画像検索と言語生成の2種類の課題から,画像の言語による高水準認知理解について研究を行った.
1.イベントの画像による要約
この課題では撮影者ではなく閲覧者の視点から,「春の京都観光」や「雨の日の散歩」などのイベントを正確に知覚できるような画像要約を実現することを目指した.画像集合の知覚品質を向上させるため,イベントの間の階層的な関係性を分析し 3種類の類似イベントを定義した.これに基づき,ある画像集合が類似する別のイベントであると誤認識されるような要因を特定し,誤認識の可能性を推定する指標を提案した.また,我々は貪欲法によって,誤認識の可能性を最小化するような画像集合を生成するアルゴリズムを提案した.実験では290万以上の画像と50種類のイベントを用い,提案した方法によってより知覚品質が高い画像集合を生成できることを明らかにした.
2.画像からの主観的形容詞の学習
この課題では画像と主観的な形容詞(人の意見や評価などを表す形容詞)の適合性を推定する問題に取り組んだ.提案手法では,主観的形容詞を喚起させるような画像特徴を,擬似的な適合・不適合画像の差から学習するオートエンコーダを提案し,得られた画像特徴から主観的形容詞の適合性を推定した.Flickrから収集した画像を用いた実験では,人手によるラベルがない場合であっても提案手法が主観的形容詞の適合性を効果的に推定できることを示した.
3.画像からの物語生成
この課題では画像の列から自動的に物語を生成する問題に取り組んだ.特に感情が物語において重要な役割を担っていると考え,これを明示的にモデルの中に含むような方法を提案した.提案手法では,物語生成タスクを2つの関連するサブタスク,画像と感情の両方から文を生成するタスクと画像列から喚起されうる感情を推定するタスクに分割して解決することを考えた.前者に関しては,感情を条件として与え,画像をエンコーダに入力し,デコーダによって物語を生成するエンコーダ・デコーダモデルを提案した.後者に関しては,画像列をコンテキストとして考慮し,各画像の感情を推定する再帰型ニューラルネットワークを提案した.実験では,物語生成用のデータセットであるVISTを用い,既存手法との比較を行った.人が生成した物語文との類似性から評価を行い,提案手法が既存手法よりも良い物語文を生成できることを示した.
4.画像からの詩の生成
画像から自動的に詩を生成することは,機械の知性を示す新しいトピックである.我々は画像から詩を生成する問題に対して,画像と詩の深層学習による表現学習,および,複数の識別器を備えた敵対的学習による再帰型ニューラルネットワーク学習を提案した.特に詩の生成を改善するために,詩と画像の適合性を判定する識別器と詩的な言語表現かどうかを判定する識別器を用いた.手法の提案に加え,詩の生成研究の発展のために,初の画像・詩ペアのデータセットおよび大規模な詩のデータセットを公開した.ユーザ実験では,機械的に生成された詩と人間が作った詩が提示されたとき,おおよそ半数の人が両者を区別できないほど,生成された詩が自然であることを示した.機械的に生成された詩を図に示す.
[貢献]我々は高水準認知の視点から画像と言語の差異を埋める方法を提案した
デジタルカメラやスマートフォンなどの普及により,画像はより一般的な表現手段・コミュニケーション手段になってきている.他方,もう1つのコミュニケーション手段として,言語も欠かせない要素の1つである.しかしながら,画像と言語間の関係性,特に高水準認知における関係性はいまだ明らかになっておらず,人間が両方のモダリティ,すなわち,画像と言語にかかわる課題を日常的に行えているにもかかわらず,コンピュータによる両者の関係性の理解は挑戦的な課題の1つであると考えられている.本研究では,画像検索と言語生成の2種類の課題から,画像の言語による高水準認知理解について研究を行った.
1.イベントの画像による要約
この課題では撮影者ではなく閲覧者の視点から,「春の京都観光」や「雨の日の散歩」などのイベントを正確に知覚できるような画像要約を実現することを目指した.画像集合の知覚品質を向上させるため,イベントの間の階層的な関係性を分析し 3種類の類似イベントを定義した.これに基づき,ある画像集合が類似する別のイベントであると誤認識されるような要因を特定し,誤認識の可能性を推定する指標を提案した.また,我々は貪欲法によって,誤認識の可能性を最小化するような画像集合を生成するアルゴリズムを提案した.実験では290万以上の画像と50種類のイベントを用い,提案した方法によってより知覚品質が高い画像集合を生成できることを明らかにした.
2.画像からの主観的形容詞の学習
この課題では画像と主観的な形容詞(人の意見や評価などを表す形容詞)の適合性を推定する問題に取り組んだ.提案手法では,主観的形容詞を喚起させるような画像特徴を,擬似的な適合・不適合画像の差から学習するオートエンコーダを提案し,得られた画像特徴から主観的形容詞の適合性を推定した.Flickrから収集した画像を用いた実験では,人手によるラベルがない場合であっても提案手法が主観的形容詞の適合性を効果的に推定できることを示した.
3.画像からの物語生成
この課題では画像の列から自動的に物語を生成する問題に取り組んだ.特に感情が物語において重要な役割を担っていると考え,これを明示的にモデルの中に含むような方法を提案した.提案手法では,物語生成タスクを2つの関連するサブタスク,画像と感情の両方から文を生成するタスクと画像列から喚起されうる感情を推定するタスクに分割して解決することを考えた.前者に関しては,感情を条件として与え,画像をエンコーダに入力し,デコーダによって物語を生成するエンコーダ・デコーダモデルを提案した.後者に関しては,画像列をコンテキストとして考慮し,各画像の感情を推定する再帰型ニューラルネットワークを提案した.実験では,物語生成用のデータセットであるVISTを用い,既存手法との比較を行った.人が生成した物語文との類似性から評価を行い,提案手法が既存手法よりも良い物語文を生成できることを示した.
4.画像からの詩の生成
画像から自動的に詩を生成することは,機械の知性を示す新しいトピックである.我々は画像から詩を生成する問題に対して,画像と詩の深層学習による表現学習,および,複数の識別器を備えた敵対的学習による再帰型ニューラルネットワーク学習を提案した.特に詩の生成を改善するために,詩と画像の適合性を判定する識別器と詩的な言語表現かどうかを判定する識別器を用いた.手法の提案に加え,詩の生成研究の発展のために,初の画像・詩ペアのデータセットおよび大規模な詩のデータセットを公開した.ユーザ実験では,機械的に生成された詩と人間が作った詩が提示されたとき,おおよそ半数の人が両者を区別できないほど,生成された詩が自然であることを示した.機械的に生成された詩を図に示す.

提案手法によって自動的に生成された詩とその元になった画像
https://github.com/researchmm/img2poem |
(2019年5月27日受付)