FIT2023 第22回情報科学技術フォーラム

一般講演プログラム

H分野　画像認識・メディア理解
選奨セッション画像認識・メディア理解 [選奨セッション1]
9月6日（水） 9:30-12:00　1h会場座長　大橋洋輝（日立製作所）内海ゆづ子（大阪公立大学）
CH-001	行動認識のための人物存在確率を考慮した深層学習 ◎本田光・榎田修一（九州工業大学） × CH-001行動認識のための人物存在確率を考慮した深層学習 ◎本田光・榎田修一（九州工業大学）近年，人の行動を自動的に判別する行動認識への期待が高まっている．行動認識における入力として，テクスチャ情報に着目した画像情報や，動きに着目したオプティカルフローが用いられるが，行動認識の対象である人に着目した入力特徴に関する研究は少ない．そこで本研究では，人の位置に着目した人物存在確率マップを入力として用いる行動認識手法を提案する．ここで，人物存在確率マップは，セマンティックセグメンテーションにより得られる入力特徴である．UCF-101データセットを用いた実験の結果より，人物存在確率マップに着目することで，腕立て伏せなどの体の動きのみのクラスで行動認識の精度向上を確認した．
CH-002	天気情報収集のための車載カメラ画像を活用した降雨強度と雲の種類の推定 ◎末光航大・遠藤聡志（琉球大学）・佐藤俊輔（ウェザーニューズ） × CH-002天気情報収集のための車載カメラ画像を活用した降雨強度と雲の種類の推定 ◎末光航大・遠藤聡志（琉球大学）・佐藤俊輔（ウェザーニューズ）ウェザーニューズは、ユーザーが投稿した空の写真と降雨強度などの情報を活用し、予報精度を向上させている。そこで、ゲリラ豪雨などの突発的な情報を網羅的に取得することで更なる予報精度の向上を目指す。車載カメラから得られる画像を活用した自動投稿システムを提案する。本研究では、車載カメラ画像を用いて降雨強度と雲の種類を予測し、それに基づいて簡易なウェザーリポートを作成することを目指す。具体的には、セマンティックセグメンテーションを用いて、道路領域に対してマスク処理を行い、ゲリラ豪雨の予兆となる積乱雲と乱層雲を分類する。また、雨の状況では、空領域にマスク処理を行い路面特徴量から降雨強度を予測する。
CH-003	決定木とニューラルネットワークを用いたアンサンブル時系列予測 ◎加藤正峰・六井淳（静岡県立大学） × CH-003決定木とニューラルネットワークを用いたアンサンブル時系列予測 ◎加藤正峰・六井淳（静岡県立大学）近年、統計的機械学習を用いて時系列予測を行う研究が盛んに行われている。特に、時系列予測を行うことができるモデルとして、Recurrent Neural Network（RNN）やLong Short-Term Memory（LSTM）といった機械学習モデルが広く利用されている。これらの機械学習モデルは予測精度が優れている一方、大幅な学習時間を要するという課題がある。本研究では、高速な学習を実現させるため、多くの計算を必要としない決定木とニューラルネットワークの予測を組み合わせる時系列予測手法を考案した。提案手法の有用性を検証すべく、予測精度と学習速度を指標として実験を行い、その有用性を確認した。
CH-004	予測可能性を示す多変量時系列GANモデルの構築 ◎川島優輝・六井淳（静岡県立大学） × CH-004予測可能性を示す多変量時系列GANモデルの構築 ◎川島優輝・六井淳（静岡県立大学）近年、Generative Adversarial Network（GAN）に関する研究が盛んに行われている。本研究では、GANを時系列に適用した多変量時系列予測モデルを提案する。GANは確率的に様々な可能性を提示することができるため、従来の単一予測ではなく複数の可能性予測が可能となる。提案手法の予測精度向上のために、Long- and Short-term Time-series network（LSTNet）を生成器と識別器に採用し、GANの予測精度を評価する新たな指標も導入した。本提案手法は、実験的に従来の時系列予測手法と比較して、高い予測精度を確認している。
CH-005	双方向言語モデルからの知識蒸留を用いた日本語情景文字認識 ◎折橋翔太・山﨑善啓・内田美尋・高島瑛彦・東羅翔太郎・増村亮（日本電信電話） × CH-005双方向言語モデルからの知識蒸留を用いた日本語情景文字認識 ◎折橋翔太・山﨑善啓・内田美尋・高島瑛彦・東羅翔太郎・増村亮（日本電信電話）本稿では、日本語情景文字認識のための双方向言語モデルからの知識蒸留手法を提案する。日本語は、複数単語系列の単位で文字領域が検出されるため、複数単語系列に対する文字認識を行う必要がある。このため、正確な文字認識には高い水準の言語的知識が要求される。言語的知識を強化するため、言語モデルを用いる手法が提案されているが、主に過去の文脈を考慮する文字認識モデルが出力する候補の修正に止まる。本手法では、未来の文脈を考慮可能な双方向言語モデルの知識を文字認識モデルに与えることで、文字認識モデル自体に未来の文脈を考慮させる。具体的には、文字認識モデルの出力を双方向言語モデルの出力に近付ける誤差関数を与える。
選奨セッション画像認識・メディア理解 [選奨セッション2]
9月6日（水） 13:10-15:10　2h会場座長　岡部孝弘（九州工業大学）舩冨卓哉（奈良先端科学技術大学院大学）
CH-006	深層学習を用いた波長優先度推定による蛍光指紋識別 ◎林田純弥・柿下容弓（日立製作所）・服部英春（日立ハイテク） × CH-006深層学習を用いた波長優先度推定による蛍光指紋識別 ◎林田純弥・柿下容弓（日立製作所）・服部英春（日立ハイテク）蛍光指紋とは、試料が放出する蛍光を励起波長毎に測定したデータであり、試料の成分識別等に活用されている。蛍光指紋の高精度な識別のためには、識別に使用する波長帯の選定が重要である。しかし、現在は波長帯の自動選定技術は確立していない。本研究では、識別に有効な波長帯を数値化した波長優先度を、深層学習モデルを用いて推定する波長優先度推定手法および波長優先度を用いた自動波長選定手法を提案する。試料に含まれる化合物を識別する評価実験において、一部の化合物情報のみを学習した提案手法のモデルを用いて波長優先度の推定および自動波長の選定を行い、従来手法(Lasso 回帰)以上の識別精度を得た。
CH-007	イベントカメラによる振動解析に基づいた高解像度光学的音響計測 ◎白川稜・曽我部陽光・杉本志織・松本鮎美・北原正樹（日本電信電話） × CH-007イベントカメラによる振動解析に基づいた高解像度光学的音響計測 ◎白川稜・曽我部陽光・杉本志織・松本鮎美・北原正樹（日本電信電話）光学的音響計測とはマイクロホンを用いた一般的な音響計測手法と異なり，光学デバイスを用いて音の振動に起因する光の変動を捉えることで音響を計測する技術である．レーザードップラー振動計や高速度カメラを用いた様々な手法が開発されている一方で，デバイス構成の複雑さや価格，時間分解能といった面で課題が残る．イベントカメラは被写体の輝度変化を検知するデバイスであり，高時間分解能，高ダイナミックレンジ，低消費電力といった特徴から多くの分野でその活用が期待されている．加えて，既存手法で用いられるデバイスと比較してイベントカメラのデバイス構成は非常に簡素かつ安価であることから，本稿では，イベントカメラを用いた被写体の振動解析及びそれらの情報を基にした高解像度な音響推定技術を提案する．
CH-008	（講演取消）
CH-009	ドライブレコーダを用いた道路環境解析のための車両および道路附属物の位置・軌跡推定 ◎川崎敦史・高橋俊裕・渡辺友樹（東芝） × CH-009ドライブレコーダを用いた道路環境解析のための車両および道路附属物の位置・軌跡推定 ◎川崎敦史・高橋俊裕・渡辺友樹（東芝）交通状況や道路周辺インフラのデジタル情報は、交通事故解析やインフラ点検などのビジネスで活用が期待されている。そこで、手軽かつ低コストで映像と位置情報（GPS）が取得できるドライブレコーダを用いて、車両および道路附属物の地図上の位置や軌跡を推定する技術を開発した。GPSの低精度な絶対位置と映像からの高精度な相対運動推定を統合し、高精度かつ安定した自車位置を推定した。さらに、三次元幾何と深層学習による画像からの物体検出、奥行き推定、時系列補正により、周辺の車両や道路附属物の位置や軌跡を高精度に推定した。実験では市販のドライブレコーダを用いて、自車や他車、道路附属物を地図上に正確に重畳できることを確認した。
CH-010	大規模シーンを対象とした形状復元の高精度化のための点選択 ○松﨑康平・野中敬介（KDDI総合研究所） × CH-010大規模シーンを対象とした形状復元の高精度化のための点選択 ○松﨑康平・野中敬介（KDDI総合研究所）本稿では，大規模なシーンを表す点群から3次元形状を高精度に復元するために，深層学習に基づく点選択手法を提案する．最先端の形状復元手法は入力点群の点数に応じてメモリ使用量が増加するため，大規模なシーンへの拡張性が制限されている．提案手法は入力点群から一部の点を選択することにより，形状復元手法によるメモリ使用量を抑制する．また，提案手法はタスク損失を用いて点選択ネットワークを学習させることにより，形状復元タスクに最適化された点を選択する．さらに，点選択ネットワークへ入力される点の個数を抑制するための分割統合法を導入する．ScanNetデータセットを用いた評価実験により，提案手法の有効性を確認した．
画像認識・メディア理解 1
9月6日（水） 15:30-17:30　3j会場座長　榎田修一（九州工業大学）
H-001	顔画像を用いた個人特徴の減算によるユーザの曖昧な内部状態推定 ◎朝枝彩夏・武村紀子（九州工業大学） × H-001顔画像を用いた個人特徴の減算によるユーザの曖昧な内部状態推定 ◎朝枝彩夏・武村紀子（九州工業大学）表情は人の内部状態をよく表すと言われており，顔画像を用いた状態推定に関する研究は数多く行われている．しかし，顔の作りや表情表出の方法には個人差があり，このような個人差は推定精度に悪影響を及ぼす．特に，集中や眠気，疲労といった表情に表れにくい曖昧な内部状態は個人差の影響を強く受ける. そこで本研究では，顔画像における個人差を考慮することで，曖昧な内部状態の推定精度の向上を目指す．具体的には，顔画像特徴から個人特徴を減算することで個人によらない顔画像特徴を抽出し，内部状態を推定する．評価実験では，e-Learning中の学習者の顔画像データを用いて覚醒度の推定を行い，本手法の有用性を示した．
H-002	複合現実感における操作領域と身体的疲労感の関係 ◎桐山由衣・梶原祐輔（公立小松大学） × H-002複合現実感における操作領域と身体的疲労感の関係 ◎桐山由衣・梶原祐輔（公立小松大学）　複合現実感（Mixed Reality; MR）は主に医療・航空・自動車産業などの分野で盛んに産業応用が進められている。MRとは実世界を見ているユーザの視野内にCGや文字などの仮想物体を重畳表示し、さらに表示した仮想物体を手や音声で操作可能にする技術である。世界中でMR機器として普及しているMicrosoft HoloLens2を用いると、ユーザは周囲の任意の空間を操作領域にすることが可能になる。一方で、操作感覚の欠如による低操作性や、表示・操作領域によって生じる腕や肩のだるさ、長時間の使用で機器の重量による首へ負担が問題点として挙げられる。本研究では、これらの諸影響が発生する要因について調査を行い、より快適で操作性を向上させる方策を検討する。
H-003	マスク着用に対応した番組出演者の一覧提示システム ○河合吉彦・望月貴裕（NHK） × H-003マスク着用に対応した番組出演者の一覧提示システム ○河合吉彦・望月貴裕（NHK）テレビ放送局においては、よりよい番組作りのために、出演者の年代や性別、出演者ごとの出演時間や出演時期を解析したいという要望がある。そこで本稿では、顔認識技術を活用した番組出演者の一覧提示システムを試作する。提案システムでは、まず始めに番組映像から一定の時間間隔でフレーム画像を抽出し、各画像から顔を検出する。次に検出された顔画像から、顔を認識・分類するための特徴量を算出する。顔検出、顔認識にはマスクの着用に対応した手法を利用する。最後に、算出した特徴量をクラスタリングし、代表画像とともにクラスタの一覧を提示する。実験では、試作したシステムを実際のテレビ番組に適用し、有効性を確認する。
H-004	類似コーディネート検索方式に対するファッションアイテム領域を活用した改良 ◎澤田佑介・中田洋平（明治大学） × H-004類似コーディネート検索方式に対するファッションアイテム領域を活用した改良 ◎澤田佑介・中田洋平（明治大学）近年，ファッションアイテム購入の参考情報が得られるコーディネートサイトが登場している．しかし，コーディネートサイトにおける掲載の情報量の多さから，不慣れなユーザが志向に適したコーディネータを見つけることは容易ではない．このような背景を受け，著者らの研究室では，コーディネート画像を送信すると，類似コーディネート検索やコーディネータ推奨を行うLINEボットを試作し，そこで用いられる類似コーディネート検索法のアイテム領域抽出技術を活用しての改良も行ってきた．しかし，抽出されたアイテム領域を十分に活用できているとは言い難かった．そこで，本稿では，アイテム領域を活用した類似コーディネート検索法に改良する．
画像認識・メディア理解 2
9月6日（水） 15:30-17:30　3k会場座長　六井淳（静岡県立大学）
H-005	影を考慮した偏光と陰に基づくワンショット法線推定 ◎吉田百花・川原僚・岡部孝弘（九州工業大学） × H-005影を考慮した偏光と陰に基づくワンショット法線推定 ◎吉田百花・川原僚・岡部孝弘（九州工業大学）本稿では，単一カラー偏光画像から被写体の法線を推定する手法を提案する．一般に，単一偏光画像の拡散反射成分から推定される法線は，天頂角が一意に決定されるのに対して，方位角には180度の曖昧さがある．提案手法では，被写体をRGB3色の光源で異なる方向から同時に照明したときの反射光を，カメラのRGB3チャネルで独立に捉えることで，ワンショットの法線推定を実現する．具体的には，偏光から推定される2つの法線候補と観察される陰の整合性に基づいて，物体の反射率等に制約を課すことなく，画素ごとの法線を一意に決定する．また，物体の形状に滑らかさ制約を課すことで，影の影響を除去する．合成画像および実画像を用いた実験を行い，提案手法の有効性を示す．
H-006	直接・大域成分への分解のための撮影条件と分解処理の同時最適化 ◎上田宇起・川原僚・岡部孝弘（九州工業大学） × H-006直接・大域成分への分解のための撮影条件と分解処理の同時最適化 ◎上田宇起・川原僚・岡部孝弘（九州工業大学）本稿では，プロジェクタ-カメラシステムを用いて，シーンの画像を鏡面反射や拡散反射などの直接成分と相互反射や表面下散乱などの大域成分に分解する手法を提案する．従来手法には，その根拠となる理想的な物理モデルや信号処理理論と実画像の性質に齟齬があるため，分解精度が低下してしまうという問題があった．そこで提案手法では，データ駆動のアプローチで，分解処理だけでなく撮影条件も含めて，直接・大域成分への分解全体を再設計する．具体的には，畳み込みカーネルを用いて投影パタンを表現できることに着目して，撮影条件（撮影枚数・投影パタン・露光時間）と分解処理の両方を，CNNの枠組みで同時に最適化する．実画像を用いた実験を行い，提案手法の有効性を示す．
H-007	機械学習による動画解析を用いた4足動物の行動の異常検知手法の検討 ◎高久優典・田村仁（日本工業大学） × H-007機械学習による動画解析を用いた4足動物の行動の異常検知手法の検討 ◎高久優典・田村仁（日本工業大学）動物園でカメラ映像から情報を自動で判別することは、監視を効率化させるうえで必要とされている。その中で、画像認識における異常検知手法としてGANomalyがある。この手法を用いて犬の正常画像と異常画像を学習させたところ、約91％の正解率が得られた。その原因として嘔吐している姿勢と立ち止まっている姿勢が酷似しているため、誤判定が発生したと考えられる。この問題を解決するために、前後の情報を考慮した学習する動画認識を用いることを提案する。一般的な動画分類手法としてC3Dがある。この動画分類手法を異常検知に適応させることで、より高い正解率を目指す。またその結果については発表で述べる。
H-008	Subjective Evaluation of Super-Resolution Image Reconstructed by Trainable Regularization ◎Viriyavisuthisakul Supatta（北陸先端科学技術大学院大学）・Sanguansat Parinya（Panyapiwat Institute of Management）・山﨑俊彦（東京大学） × H-008Subjective Evaluation of Super-Resolution Image Reconstructed by Trainable Regularization ◎Viriyavisuthisakul Supatta（北陸先端科学技術大学院大学）・Sanguansat Parinya（Panyapiwat Institute of Management）・山﨑俊彦（東京大学） Recently, noise Enhanced Super Resolution Generative Adversarial Network Plus (nESRGAN+) was improved the perceptual quality and convergence efficiency by using Multiple Parametric Regularization (MPR). The MPR algorithm allows the regularization parameters and degree of terms can be adjusted in iterative training, which is different from traditional regularization. The previous experiment demonstrated that the images generated by using MPR could achieve a higher image quality assessment (IQA) score than the baseline. In this paper, we aim to conduct the subjective evaluation between the reconstructed images generated by using the MPR method and the baseline. The result indicates in the same direction as the IQA score that the generated image by the MPR method can provide the detail that satisfies with human perception.
画像認識・メディア理解 3
9月7日（木） 9:30-12:00　4j会場座長　廣瀬誠（松江工業高等専門学校）
H-009	Self-Attentionによる特徴抽出を用いた工場製品の異常検知 ◎長谷川海太・黒木啓之（産業技術高等専門学校） × H-009Self-Attentionによる特徴抽出を用いた工場製品の異常検知 ◎長谷川海太・黒木啓之（産業技術高等専門学校）近年、工場における機材や部品の外観検査は、従業員の体調や熟練度によって判断基準が左右されてしまうため、深層学習を用いた異常検知が多く取り入れられている。これまでは、異常検知を行う手法としてGANに着目し、その中でも推論時のリアルタイム性にも優れたEfficient GANを用いて異常検知を行っていた。しかし、従来のEfficient GANでは転置畳み込みの繰り返しによって画像を生成するため、局所的な情報が失われてしまう。本研究では、入力された情報全体を考慮可能なSelf-Attentionを導入したEfficient GANを用いた手法を提案し、異常検知を行うことを目的とする。
H-010	Gaussian-ADを適用したYOLOを用いた建設機材の異常検知 ◎万代弦一郎・黒木啓之（産業技術高等専門学校） × H-010Gaussian-ADを適用したYOLOを用いた建設機材の異常検知 ◎万代弦一郎・黒木啓之（産業技術高等専門学校）建設機材の検品作業は人力によるものが多く，個人による判断の相違により，異常品の出荷や，作業効率の悪化などの問題が発生する可能性がある．近年では，機械学習を用いて製品の異常検知を自動化することで，作業の効率化や人件費の削減，人間による曖昧な判断ではなく機械的な判断での判別を図る企業が増加している．本研究では，現場で使用することを想定した動画像の異常検知に焦点を当て，動画像のリアルタイム物体検出が可能なモデルであるYOLOv7に，正常品の静止画の特徴量をガウス分布に近似する異常検知手法であるGaussian-ADを適用し，建設機材であるハンドガードの動画像の異常検知を行うことを目的とする．
H-011	SAMを用いた水耕栽培作物の成長検出 ◎青柳心吾・鈴木恵二・山内翔（公立はこだて未来大学） × H-011SAMを用いた水耕栽培作物の成長検出 ◎青柳心吾・鈴木恵二・山内翔（公立はこだて未来大学）水耕栽培における作物の観察は，作物の生育に重要な要素である．先行研究では，3Dモデリングによる可視化を活用し成長観察が行われている．しかし，作物のみを撮れる理想的な環境下での実験が主であり，また，水耕栽培特有の水中の根に対する観察は行われていない．そこで本研究では，水耕栽培における作物の成長検出を，セグメントモデルであるSAMを用いて行う．これにより，作物によって形状が異なる葉や根などの，複雑な部分の画像を検出し成長観察を可能にする．本研究では，SAMの有効性を実験的に検証し，成長検出における性能を評価する．また，YOLOとの比較を通して，成長検出に適したモデルについて議論を行う．
H-012	任意方向光源下画像生成のための照明環境と補間処理の同時最適化 ◎平尾寿希・川原僚・岡部孝弘（九州工業大学） × H-012任意方向光源下画像生成のための照明環境と補間処理の同時最適化 ◎平尾寿希・川原僚・岡部孝弘（九州工業大学）様々な照明環境で撮影した実画像から任意照明環境下の画像を生成する再照明において，鏡面反射などの高周波数成分を生成するためには，一般に，密に配置した光源下で撮影した大量の画像を補間する必要がある．本稿では，少数の照明環境下で撮影された画像を用いて任意方向光源下の画像を生成する手法を提案する．提案手法では，少数の照明環境で鏡面反射を効率よく捉えるために，点光源だけでなく様々な大きさの面光源やそれらの組合せも利用する．また，畳み込みカーネルを用いて照明環境を表現できることに着目して，照明環境と補間処理の両方を，畳み込みニューラルネットワークの枠組みで同時に最適化する．実画像を用いた実験を行い，提案手法の有効性を示す．
H-013	（講演取消）
H-014	景観画像に対する代表色抽出手法の比較とオブジェクト抽出の精度調査 ◎浅井杜和（東海大学）・石井英里子（鹿児島県立短期大学）・山田光穗・星野祐子（東海大学） × H-014景観画像に対する代表色抽出手法の比較とオブジェクト抽出の精度調査 ◎浅井杜和（東海大学）・石井英里子（鹿児島県立短期大学）・山田光穗・星野祐子（東海大学）我々は観光スポットの景観を撮影した画像群から，ユーザーの景観に対する嗜好を分析し，類似属性情報を提案するシステムの開発を目指している．このシステムの開発の一環として，本研究では，複数の代表色抽出手法を定性的に比較し，観光スポットの景観画像から色彩特徴を抽出するのに適している手法について調査した．結果，階層クラスタリングを利用した代表色抽出手法が適していると示唆された．さらに，画像からのオブジェクト抽出にYOLO v7を用いた深層学習を適用し，YOLO v7の学習に必要なデータ量と学習済みモデルの抽出精度についても調査した．
H-015	学習データ外事象の説明が可能なZero-shot 差分キャプショニング技術の検討 ○佐藤拓杜・大橋洋輝（日立製作所） × H-015学習データ外事象の説明が可能なZero-shot 差分キャプショニング技術の検討 ○佐藤拓杜・大橋洋輝（日立製作所）差分キャプショニングは，2枚の画像間の差分を検出し，差分説明を自然言語で生成する技術である。差分検出と文章生成の機構をEnd-to-Endで学習する従来技術は，差分検出の対象と説明語彙が学習データの内容に縛られ，学習データ外の事象への対応が困難という課題があった。そこで本研究では，学習データ外の事象に対応可能なZero-shot差分キャプション技術の検討を行った。特に差分説明の生成方法については，人間は未知事象でも抽象的説明が可能という点に着目し，色・形状といった属性情報や状態変化の情報に基づく抽象的差分説明文の生成技術を開発した。学習外データでの評価において，種々の生成文章評価指標にて従来手法の性能を改善することを確認した。
画像認識・メディア理解 4
9月7日（木） 15:30-17:30　5j会場座長　黒木啓之（東京都立産業技術高等専門学校）
H-016	Azure Kinectを用いた骨格角度に基づく姿勢評価方法の提案 ◎小澤佑起・泉翔太・今成遥飛・金丸隆志（工学院大学） × H-016Azure Kinectを用いた骨格角度に基づく姿勢評価方法の提案 ◎小澤佑起・泉翔太・今成遥飛・金丸隆志（工学院大学）本研究では、Azure Kinectを用いた骨格角度に基づく着座時の姿勢評価方法を提案する。客観的な姿勢評価方法を実現するため、人体の骨格に基づいて算出される胸椎後弯角と頚椎前弯角をAzure Kinectを用いて推定することを目指す。 Azure Kinectを用いると肩、肘、膝などの計32個の骨格点を取得できる。しかし、首から尻にかけては4つの骨格点しかなく、27～28個の椎骨からなる脊椎（背骨）の状態を十分に反映しているとは言えない。そのため、上述の角度の推定には脊椎の状態とAzure Kinectの骨格を対応付けるためのいくつかの仮定が必要となった。得られた姿勢評価方法を20代前半男性に適用し、臨床で活用できる可能性を検討した。
H-017	encoder-decoderモデルによる回転変換の色の影響に関する検討 ◎岡本紗季・神野健哉（東京都市大学） × H-017encoder-decoderモデルによる回転変換の色の影響に関する検討 ◎岡本紗季・神野健哉（東京都市大学）我々はこれまで，encoder-decoderモデルで立体画像の回転変換において色の影響に着目し，研究を行ってきた．背景と物体に用いる色を固定すると物体を色のみで識別し，色を固定しないと物体を色だけでなく形状情報も用いて背景か物体かを識別していると考えられる．しかし，学習時に使用していない色の立体画像を用いると，物体は回転するものの色が正しくない場合がある．背景については色がぼやける場合もある．このことから，未知の色に関しては正確に色を予測できていない．そこで，本稿では未知の色でも正しく予測可能な方法に関して検討を行う．
H-018	CNNにおける畳み込み層の重層化と特徴抽出の関係に関する検討 ◎外川宙・神野健哉（東京都市大学） × H-018CNNにおける畳み込み層の重層化と特徴抽出の関係に関する検討 ◎外川宙・神野健哉（東京都市大学）畳み込みニューラルネットワーク（CNN）は，畳み込み層に含まれるカーネルによって，入力画像の特徴を抽出している．一般的に、カーネルのサイズは入力画像よりも小さく設定される．また，CNNは畳み込み層を複数重ねることで，入力画像の特徴抽出範囲を広げることができ，その結果としてモデルの性能が向上すると言われている．本研究では，小さなカーネルを持つ畳み込み層を複数重ねたCNNと，特徴抽出範囲が同等の畳み込み層1層で構成されたCNNを学習し，畳み込み層の重ねる回数と特徴抽出やモデルの性能との関係について検討する．
H-019	三次元歩行データに基づく歩容認証: 機械学習アプローチの比較分析と注目領域の可視化 ○廣瀬誠・清間志音・山根和佳（松江工業高等専門学校） × H-019三次元歩行データに基づく歩容認証: 機械学習アプローチの比較分析と注目領域の可視化 ○廣瀬誠・清間志音・山根和佳（松江工業高等専門学校）本研究では，人間の身体動作を表す3次元歩行データを用いて，高度な認証手法として注目を集めている歩容認証の実現に向け，複数の機械学習手法を詳細に探求した．歩行の脚部が中心となることから，機械学習が主にこの部分に注目すると一般的には予想される．しかし，我々の検証では異なる結果が示された．それぞれの手法について認識率を算出し高い認識率の場合において，機械学習が注目している箇所を可視化すると，実際には脚部以外の箇所にも注目していることが明らかになった．この結果からカメラやセンサーなどで足部が映らない，あるいは不明確な状況下でも，歩容認証が可能となる可能性を示唆している．
H-020	転移学習を用いた音源識別における画像変換手法とその性能比較 ◎藍原直大・川喜田佑介・宮崎剛・田中博（神奈川工科大学） × H-020転移学習を用いた音源識別における画像変換手法とその性能比較 ◎藍原直大・川喜田佑介・宮崎剛・田中博（神奈川工科大学）　話者識別や室内環境の音源識別において，音を画像に変換し，深層学習を用いて識別モデルを作成する方法がある．画像への変換によって音の特徴抽出を行うが，適用される変換手法は使用用途や対象音源の特性によって異なり，識別に最適な手法の特定は難しい．本検討では同一の音源に対して，特徴抽出に多く用いられているスペクトログラム，メルスペクトログラム，スカログラムの各変換方法による学習データを用いた識別モデルを作成する．本モデルによる精度評価を行うことで，最適な変換方法やそのパラメータについて検討した結果を述べる．
画像認識・メディア理解 5
9月8日（金） 9:30-12:00　6h会場座長　上杉徳照（大阪公立大学）
H-021	合成画像を用いた機械学習による電子部品識別精度に関する研究 ◎太田匠海・志子田有光・森島佑（東北学院大学）・鈴木順（仙台高等専門学校） × H-021合成画像を用いた機械学習による電子部品識別精度に関する研究 ◎太田匠海・志子田有光・森島佑（東北学院大学）・鈴木順（仙台高等専門学校）機械学習に基づく画像認識技術によって電子回路部品を識別しようとするとき、これらの部品は一般的にその形状が明確な工業製品であることから、合成画像を大量に用いて学習データを増やすことで、その識別精度の向上が期待できる。本研究では、これまでブレッドボード上の配線パターンの推定を目標に、それを実現するための合成画像やアノテーションデータを付したメタデータの自動生成技術の開発を行ってきた。今回の報告では、これらのデータを用いた物体識別の精度や、工業製品の中でも電線のような, 不定形な物体の位置や形状の検出法などについて検討し、実験結果を踏まえてこれらを考察する。
H-022	７人制ラグビー向けの最適攻撃プレー算出可能な戦術ボードツールに対する選手能力設定機能の搭載 ◎八代航太朗・廣瀬蒼馬・中田洋平（明治大学） × H-022７人制ラグビー向けの最適攻撃プレー算出可能な戦術ボードツールに対する選手能力設定機能の搭載 ◎八代航太朗・廣瀬蒼馬・中田洋平（明治大学）近年，国内でのラグビーへの注目度が高まっている．そのような中で，著者らは，これまで，７人制ラグビーを対象とし，選手・ボール位置情報と選手速度情報から，シミュレーション技術と最適化技術に基づき，ランとハンドパスからなる最適な攻撃プレーを算出する方法の研究を進めてきた．更に，著者らは，この最適攻撃プレー算出法を搭載した戦術ボードツールを試作してきた．ただし，同戦術ボードツールをより実践的なものとするためには，選手の能力に関する情報を設定する機能の追加が必要であった．そこで，本稿では，同戦術ボードツールに，各選手の能力を設定できる機能を搭載し，機能搭載後の同ツールに対して初期的な検証を実施する．
H-023	Vision Transformerを用いた鍛造部品の不良品検出 ◎高木裕也・藤田和弘（龍谷大学）・中川真言・世継武志（高橋金属） × H-023Vision Transformerを用いた鍛造部品の不良品検出 ◎高木裕也・藤田和弘（龍谷大学）・中川真言・世継武志（高橋金属）鍛造部品における傷や打痕の大きさ，およびそれらの発生部位はさまざまであるため，外観検査の自動化は簡単ではない．そのため，人間が目視で確認することが多く，検査員の習熟度や疲労などによる検査精度のバラツキや人手不足といった問題がある．本研究では，画像検査に使用するアルゴリズムとして，従来用いられてきた畳み込みニューラルネットワーク(CNN)ではなく，Vision Transformer(ViT)を用い，鍛造部品における良品画像および不良品画像を画像識別し，高精度な不良品識別検査の実現を目的とする．
H-024	道中の異物検出に向けた動画像物体認識における車載単眼カメラ映像の性質検討 ◎廣田大輝・塚本新（日本大学） × H-024道中の異物検出に向けた動画像物体認識における車載単眼カメラ映像の性質検討 ◎廣田大輝・塚本新（日本大学）自動運転技術の開発等は重篤な事故回避に注力し安全性向上が図られると考えられる．一方，交通事故の減少率は低下傾向にある．交通事故低減のため，最も発生割合の高い軽傷事故を引き起こす要因として道路上の落下物に対する運転者の動静不注視に注目し，これを低減することが課題であると考えた．本研究ではカメラが搭載された自律模型自動車を用いた種々の落下物が映る動画データ収集及びYOLOを利用した物体認識実験を行い，動画像物体認識における車載単眼カメラ映像の性質を検討した．1フレームごとの背景変化によって認識分類クラスが激しく変わることや固定物体の分類クラスが映像内物体との位置関係で変化するなどの特徴を見出した．
H-025	シードを用いた対象指定による線状物体の抽出 ◎菅家遼平・高橋正信（芝浦工業大学） × H-025シードを用いた対象指定による線状物体の抽出 ◎菅家遼平・高橋正信（芝浦工業大学） Amodal Instance Segmentationは重複した複数の物体を，重複により隠れている部分も含めて個々に抽出するタスクである．CNNを用いた手法が提案されているが，実効的な需要野が限られるために空間的に遠い領域同士のつながりをモデル化することが難しい．そこで，個々の線状物体をシードで指定し，そこから対象物体の領域をたどるように抽出する手法を提案する．人工的な線状物体データを用いた実験で，手法の有効性を確認した．
H-026	畳み込みオートエンコーダーを用いた農作物の栽培画像処理CNNモデル拡張の提案 ◎富田隼輔（明治大学）・中畝誠・山田融（埼玉県農業技術研究センター）・中村和幸（明治大学） × H-026畳み込みオートエンコーダーを用いた農作物の栽培画像処理CNNモデル拡張の提案 ◎富田隼輔（明治大学）・中畝誠・山田融（埼玉県農業技術研究センター）・中村和幸（明治大学）農作物の栽培画像を入力とした機械学習タスクにおいて生じる, 空間認識の限界と次元の呪いについての問題を扱う. 栽培区画全体を撮影した画像は, 計算機の限界などに応じて一般的なリサイズ手法をとった際に, 果実や花などの重要な情報が失われやすく機械学習において十分な特徴量を得ることが難しい. そこで, 畳み込みオートエンコーダーの自己学習による次元圧縮を用いることで得られる, 復元可能かつチャネル毎に空間パターンを保存した特徴量を, 従来の大規模CNNモデルで処理する手法を導入した. 実際のキュウリの収量予測タスクに適用し, 大規模CNNモデル単体と予測精度を比較した結果、有効性が認められるケースがあった.
H-027	手画像の画素毎分類におけるハンドクリームの影響 ◎帖地俊平・小篠裕子（東京電機大学） × H-027手画像の画素毎分類におけるハンドクリームの影響 ◎帖地俊平・小篠裕子（東京電機大学）ハイパースペクトル(以降，HS)画像は，各画素に100 バンド以上と高次元のスペクトル情報を保有している．1 画素であったとしても人物固有の特徴を抽出できるため，手画像の画素毎分類に有効である．手にはハンドクリームや日焼け止めなどの液体を塗ることも多い．皮膚のスペクトル情報は，ハンドクリームなどの液体が塗布されるか否かによって変化する可能性がある．しかし，既存の手画像分類研究では，何かを塗った場合の影響などについて議論されていない．本研究では手を撮影したHS画像の画素毎分類におけるハンドクリームの影響を検証，考察する．
画像認識・メディア理解 6
9月8日（金） 9:30-12:00　6j会場座長　黒木修隆（神戸大学）
H-028	石灰石分別における機械学習を用いた最適な照明色の決定 ○永田亮一・賀川経夫（大分大学） × H-028石灰石分別における機械学習を用いた最適な照明色の決定 ○永田亮一・賀川経夫（大分大学）石灰石から得られる石灰製品は、コンクリートの製造や食品の加工に使用される。良質な石灰石（良岩）と鉄分を多く含む石灰石（雑岩）が混在することは、石灰製品の品位の低下を招く。石灰石は灰色を基調としているが、雑岩は緑色を含むことが多い。現在、ベルトコンベア上を流れる多数の石灰石から、色を手掛りに作業員が目視で雑岩を見つけている。熟練度や人への多大な負荷が原因で、人が正しく雑岩を見つけ出す事を難しくしている。本稿では、色付きの照明を石灰石に当てる事で、石灰石の持つ画像的な特徴をより良く捉える事が出来るという仮定のもと、機械学習を用いて最適な照明の色は何色なのか検討する。
H-029	UAVによる空撮画像からの碍子検出 ◎花田智生・太田寛志・クルモフバレリー（岡山理科大学） × H-029UAVによる空撮画像からの碍子検出 ◎花田智生・太田寛志・クルモフバレリー（岡山理科大学）送電鉄塔における碍子の点検は高所かつ高電圧下のため危険である。よって、UAVが自律的に碍子を撮影することが求められている。本研究は、撮影された画像から碍子の領域を検出して、碍子全体を画像取得できるように画像移動方向を算出する方法を提案する。これによって撮影の際のUAVの姿勢調整が行える。本方法では、DNNを用いて碍子を端部と中間部の2クラスに分けて検出する。このとき、碍子の中間部の両端に端部があるかを確認することで碍子の全体が写っているかどうか判断できる。碍子の全体が写っていない場合、UAVがどの方向に動けば全体が写るかを計算する。本方法を評価用画像に対して実行した結果、碍子全体が検出できることを確認した。
H-030	多視点照明合成を活用した複数枚画像入力pix2pixモデル改良による3Dモデリング精度向上 ◎菊地悠李・田村仁（日本工業大学） × H-030多視点照明合成を活用した複数枚画像入力pix2pixモデル改良による3Dモデリング精度向上 ◎菊地悠李・田村仁（日本工業大学）本研究では、単眼カメラを使用して距離画像を生成し、3Dモデリングすることを目的としている。学習を助けるために、複数の角度から照明を当てた画像を合成して使用することが検討された。照明数が増えるとノイズが増加し、精度に影響を与えることが考察された。これは学習に使用する画像を分割方式で合成したため、画像の切れ目がノイズになっており精度に悪影響を与えていると推察した。そのため、画像合成をするのではなくノイズが発生しないよう複数枚の入力画像から一枚の出力をできるよう使用しているpix2pixを改良することを検討している。
H-031	自由視点画像を高速に生成するためのオンラインレンダリング ◎荒川雄登・置田真生・伊野文彦（大阪大学） × H-031自由視点画像を高速に生成するためのオンラインレンダリング ◎荒川雄登・置田真生・伊野文彦（大阪大学）本発表では、GRAF（Generative Radiance Fields）により自由視点画像を高速に生成することを目的として，オンラインレンダリングおよびEarly Ray Termination（ERT）を併用する手法を提案する．提案手法は，ボクセル値の推論回数を削減することにより，画像生成時間を短縮する．ダミーデータを用いた実験の結果，ERT単体では画像生成時間を短縮できず，オンラインレンダリングとの併用が高速化のために必要であった．ただし，人の顔や自動車のモデルに対しては9%の高速化にとどまった．
H-032	単一のRGB-Dカメラで撮影した人物と死角領域の点群データ補間 ◎鈴木幹大・江藤謙・小篠裕子（東京電機大学） × H-032単一のRGB-Dカメラで撮影した人物と死角領域の点群データ補間 ◎鈴木幹大・江藤謙・小篠裕子（東京電機大学） RGB-Dカメラは，単一の方向から撮影すると，対象物体の背面や,その後ろに位置する壁や床のデータが欠落する．欠落したデータを補間する研究は数多く提案されているが，RGB情報もしくは点群情報のみを補間する研究がほとんどであり，RGB情報付きの点群(以降RGB点群)を補完する研究は未だ少ない．本研究では，人物を単一方向から撮影したRGB-D画像において死角となり欠落したRGB点群を補完する．具体的には，人物の三次元形状を推定することで人物の背面を補間し，壁や床などの点群データを補間する．
H-033	AdvGANを用いた敵対的サンプル攻撃に対するデータ多様体に基づく解析と防御手法 ◎王翰・田崎元・趙晋輝（中央大学） × H-033AdvGANを用いた敵対的サンプル攻撃に対するデータ多様体に基づく解析と防御手法 ◎王翰・田崎元・趙晋輝（中央大学）近年、さまざまな領域で用いられる深層学習は、小さな摂動を加えた不正な入力である敵対的サンプルによって、簡単に誤分類が引き起こされることが知られている。この敵対的サンプルを生成する攻撃手法は数多く研究されており、従来のニューラルネットワークの損失関数に対する勾配を用いた攻撃手法や摂動の最適化による攻撃手法に加え、敵対的生成ネットワーク（GAN）を用いた攻撃手法も提案されている。本研究では、GANを用いた攻撃手法であるAdvGANを対象に、著者らが提案してきたデータ多様体に対する埋め込み幾何学の理論に基づく解析を適用し、防御手法を提案する。
H-034	好ましい会話を検出するための時系列のデータ拡張 ◎上野晃英・島川博光（立命館大学） × H-034好ましい会話を検出するための時系列のデータ拡張 ◎上野晃英・島川博光（立命館大学）深層学習での訓練に有効なデータ拡張の手法はデータの種類や特性で異なる。効果的にデータを拡張するには対象となるデータに関する専門知識が必要な場合がある。本研究では，会話中に記録した音声や映像の時系列から、会話の盛り上がりや興ざめを検知することに着目する。実験で収集できる訓練データの量には時間や費用の制約のために限りがある。機械的な検知のために，ヒトが直感で持っている特徴をもとに，教師データを拡張し，低コストで大量の訓練データを生成することを考える。本研究で生成されたデータで訓練された判別器は，会話状態を正確に識別できるので，会話を活性化する話題や技を特定し，会話スキルを向上させる。
画像認識・メディア理解 7
9月8日（金） 13:10-15:40　7h会場座長　中村克行（日立製作所）
H-035	YOLOv7を用いたドラム譜の認識のための音楽記号の分解と統合に関する研究 ◎小椋隆生・黒木修隆・沼昌宏（神戸大学） × H-035YOLOv7を用いたドラム譜の認識のための音楽記号の分解と統合に関する研究 ◎小椋隆生・黒木修隆・沼昌宏（神戸大学）ドラム譜の認識において，音楽記号の検出を行う際に要素シンボルに分解，または統合する手法を提案する．
H-036	単眼カメラによるバドミントン選手の追跡とコート上の位置推定 ◎片平悠斗・黒木修隆・沼昌宏（神戸大学） × H-036単眼カメラによるバドミントン選手の追跡とコート上の位置推定 ◎片平悠斗・黒木修隆・沼昌宏（神戸大学）単眼カメラからのバドミントン映像における選手のコート上の位置推定の精度向上を目的として, 選手のジャンプを検出し, 空中の座標を補間する手法を提案する.
H-037	エッジ端末における8K超高精細映像物体検出手法の提案と評価 ◎飯沼宥光・八田彩希・鵜澤寛之・吉田周平・山崎晃嗣（日本電信電話） × H-037エッジ端末における8K超高精細映像物体検出手法の提案と評価 ◎飯沼宥光・八田彩希・鵜澤寛之・吉田周平・山崎晃嗣（日本電信電話）エッジAIと組み合わせて効率的な被災者捜索や人流監視を実現するために、災害救助や防犯の分野において8K映像の利活用が注目されている。従来手法では入力画像を均等に分割し、分割後の各画像に物体検出を適用していた。しかし、この手法を8K映像に適用した場合、分割後の画像数増加に伴って計算量が増大し、エッジ端末上での実行が難しくなる。本研究では密度推定をもとに物体が分布すると予測される領域を切り出し、物体検出対象の画像数を削減する手法を提案する。この提案手法について超高精細映像データセットを用いた評価を行い、従来手法から物体検出対象の画像数を1/5以下に削減しつつmAPが1.3%向上することを確認した。
H-038	深層学習と金属種間の転移学習による破断面SEM画像の分類 ○上杉徳照（大阪公立大学）・濱田真行・喜多俊輔・平田智丈（大阪産業技術研究所） × H-038深層学習と金属種間の転移学習による破断面SEM画像の分類 ○上杉徳照（大阪公立大学）・濱田真行・喜多俊輔・平田智丈（大阪産業技術研究所）破面解析は、走査電子顕微鏡（SEM）などで観察される破断面の特徴から、破壊機構や破壊起点を明らかにする手法であるが、解析者の経験は暗黙知で伝承が困難である。また、破面画像のデータ数が少ないため、単純に深層学習では精度向上が期待できない。本研究では、異なる金属材料間での転移学習を活用し、深層学習による破面形態の分類精度を向上させることを目指した。ステップワイズ元クラス選択法(SSSC)を採用し、元クラスを選択して材料の種類を考慮した転移学習を行った。合金鋼、ステンレス鋼、銅合金の目標ドメインと全材料の元ドメインにおいて、破断面のSEM画像を7種類に分類するタスクで評価を実施し、精度の向上を確認した。
H-039	重回帰分析による学習初期状態を活用した画像分類予測 ◎代美月・神野健哉（東京都市大学） × H-039重回帰分析による学習初期状態を活用した画像分類予測 ◎代美月・神野健哉（東京都市大学） CNNの構築ではハイパーパラメータを変化させ，多くの実験結果から知見を得る．そのため、多くの実験時間を必要とする．もし，学習初期の状態から最終学習回数での分類精度の予測が可能であれば実験時間が短縮され，より短い時間でCNNが構築できるのではないかと考えた．そこで本研究はCNNの最終学習回数のテスト分類精度を学習初期の状態を使って予測することを目的とする．その結果、低い誤差で予測できることを確認した．

A	モデル・アルゴリズム・プログラミング
B	ソフトウェア
C	ハードウェア・アーキテクチャ
D	データベース
E	自然言語・音声・音楽
F	人工知能・ゲーム
G	生体情報科学
H	画像認識・メディア理解
I	グラフィクス・画像
J	ヒューマンコミュニケーション＆インタラクション
K	教育工学・福祉工学・マルチメディア応用
L	ネットワーク・セキュリティ
M	ユビキタス・モバイルコンピューティング
N	教育・人文科学
O	情報システム