H分野 画像認識・メディア理解 |
選奨セッション コンピュータビジョン・パターン認識 |
9月4日(水) 9:30-12:00 1g会場
座長 齊藤 廣大(東芝)
入江 豪(東京理科大学) |
CH-001 |
画像処理を用いたセルフレジ不正検知技術の開発~セルフレジ素通り不正の自動検知~
○佐藤 拓斗・斎藤 淳哉・高橋 潤・山本 琢麿・横尾 郁(富士通)
×
CH-001画像処理を用いたセルフレジ不正検知技術の開発~セルフレジ素通り不正の自動検知~
○佐藤 拓斗・斎藤 淳哉・高橋 潤・山本 琢麿・横尾 郁(富士通)
近年、小売業界におけるセルフレジの導入に伴い、万引きの一形態であるセルフレジ不正が増加している。その不正行為の一つとして、商品を持ち込んだ顧客がレジを素通りして未会計商品を持ち出す「レジ素通り」がある。既存の検知技術では、友人や家族と一緒に来店した場合に、誤って同伴者が過検知となる問題がある。本研究では、画像処理に基いて自動でレジ素通りを検知する手法を提案する。提案手法では、人物の行動検知によって「精算すべき特徴」をスコア化し、セルフレジ設置エリアの出口を通過する際の最終スコアで精算が必要な人物を特定する。さらに、これら人物の精算情報の有無からレジ素通りを検知する。実際のセルフレジ環境を模した設定での119人分のデータによる評価実験では、同伴者の過検知がなくなることを確認し、提案手法の実用性を示した。 |
CH-002 |
降雨レベル分類を前処理とした降雨強度の回帰モデル構築
◎矢野 耕太郎・遠藤 聡志(琉球大学)・佐藤 俊輔(ウェザーニューズ)
×
CH-002降雨レベル分類を前処理とした降雨強度の回帰モデル構築
◎矢野 耕太郎・遠藤 聡志(琉球大学)・佐藤 俊輔(ウェザーニューズ)
カメラ画像に降雨強度を付与し気象現況をレポートする事ができれば、分解能の高い降雨観測を行う事が出来る。 本研究では定点カメラにレーダ雨量計の観測結果を正解ラベルとしたデータセットを構築し、現況の降雨強度を推定する回帰モデルを構築する。 Byunらは回帰モデルによる降雨強度推定を行ったが、強い雨では精度が悪化した。そこで、提案モデルとして雨の強さに応じた回帰モデルをEfficientNetV2にて作成し、精度向上を目指す。また、前処理である降雨強度レベル分類のレベル変換における適切な降雨強度の範囲の検証、および分類が回帰の精度へ与える影響について、提案モデルと一般的な回帰モデルによる精度比較を行う。 |
CH-003 |
物理ベース微分可能レンダリングを用いた工業製品外観検査の検討
◎森田 匠・右田 剛史・高橋 規一(岡山大学)
×
CH-003物理ベース微分可能レンダリングを用いた工業製品外観検査の検討
◎森田 匠・右田 剛史・高橋 規一(岡山大学)
国内における多くの工場が,工業製品の外観検査を人の目で行っている.しかしこの行為は,不良点の見落としや人件費などの多くの問題点を抱えている.この問題を打開するべく,本研究では工業製品の外観検査を微分可能レンダリングを用いて自動化することを検討する.そのための手法として,工業製品の 3D モデルデータと物理ベース微分可能レンダラである Mitsuba3 を用いて Python プログラムで微分可能レンダリングを行い,仮想空間内のオブジェクト・光源・カメラ配置を現実の工業製品と同じ位置・姿勢にする.それによって,仮想空間をレンダリングした画像と実物の工業製品の画像に写る工業製品の位置・姿勢や光の当たり方を同じにする.これにより,各画像を各画素ごとに比較することで,外観検査をすることが可能となる.本論文では,前文で明した画像比較に至るまでの手法に着目して実験を行っている. |
CH-004 |
背景閾値を用いない弱教師あり領域分割のための背景Activation Mapの最適化
◎藤森 和泉・大野 将樹・獅々堀 正幹(徳島大学)
×
CH-004背景閾値を用いない弱教師あり領域分割のための背景Activation Mapの最適化
◎藤森 和泉・大野 将樹・獅々堀 正幹(徳島大学)
近年,画像レベルのクラスラベルのみを用いる弱教師あり領域分割(WSSS)に注目が集まっている.WSSS では,クラス活性化マップ(CAM)から,疑似ラベルを作成する.しかし,CAM から疑似ラベルを作成する過程において,背景領域を定めるために背景閾値を用いる.最適な背景閾値はピクセルレベルのクラスラベルから求められるが,画像レベルのクラスラベルのみを用いるWSSS においては,ピクセルレベルのクラスラベルは使用できない.本論文では,背景閾値を定める代わりに,背景Activation Mapを用いることで, 背景閾値に依存せず疑似ラベルを作成する手法を提案する.本手法で得られた疑似ラベルは,背景閾値を用いたときに比べ,疑似ラベルの性能が向上した. |
CH-005 |
High Speed Barcodes Decoding from Natural Image using SSD and Two-Dimensional FFT
◎Li Yuyao・Mitsugi Jin(慶応義塾大学)
×
CH-005High Speed Barcodes Decoding from Natural Image using SSD and Two-Dimensional FFT
◎Li Yuyao・Mitsugi Jin(慶応義塾大学)
In this study, we introduce a method for the automatic detection and decoding of barcodes in natural images, employing two-dimensional Fast Fourier Transform (2D FFT) subsequent to object detection using Deep Learning. The detection of barcodes is facilitated by horizontal bounding boxes generated by a Single-Shot Multi-Box Detector (SSD). We propose a method for geometric compensation of the 2D FFT results to detect the rotation angle, and a combination of Hough transform and a cluster analysis is used to detect the scan line. The combined efficacy of SSD and 2D FFT has been evaluated, demonstrating that the utilization of 2D FFT significantly enhances processing speed compared to Morphological transform methods. |
CH-006 |
サンプリングに基づく点群からの3次元形状復元の高精度化
○松﨑 康平・野中 敬介(KDDI総合研究所)
×
CH-006サンプリングに基づく点群からの3次元形状復元の高精度化
○松﨑 康平・野中 敬介(KDDI総合研究所)
本稿では,点群から3次元形状を高精度に復元することを目的とした点のサンプリング手法を提案する.深層学習に基づく形状復元手法ではメモリ容量の制限に対処するために空間的に一様なサンプリングを行うため,詳細な形状を学習することが困難である.この問題を解決するために,提案手法はニューラルネットワークを用いて部分的な領域から詳細な形状を表す点をサンプリングする.また,サンプリングの際にニューラルネットワークへの入力点数を抑制することにより,メモリ使用量の増加を防ぐための学習パイプラインも導入する.屋内シーンを表す実環境データセットを用いて定量および定性評価実験を行い,提案手法の有効性を確認した. |
CH-007 |
(講演取消) |
パターン認識・メディア理解 1 |
9月4日(水) 13:10-15:10 2h会場
座長 菅間 幸司(和歌山大学) |
H-001 |
走行風景動画像における画像分類情報と物体位置情報に基づく路上落下物検知に向けた検討比較
◎廣田 大輝・塚本 新(日本大学)
×
H-001走行風景動画像における画像分類情報と物体位置情報に基づく路上落下物検知に向けた検討比較
◎廣田 大輝・塚本 新(日本大学)
近年,交通事故の減少率は低下傾向にあり,更なる交通事故低減に向け,最も発生割合の高い軽傷事故を引き起こす要因として道路上の落下物に対する運転者の動静不注視に注目した.そこで,安価で現実的に早期導入可能な検知・警告システムを生み出すことが必要だと考えた.本研究では,実装が進んでいる車載単眼カメラ映像を模した走行風景画像データに対し,高速処理が可能で普及が進んでいるYOLOで得られる画像分類情報,あるいは物体位置情報,それぞれによる推論を行い,走行風景における落下物検知への応用について検討を進めた.結果,画像分類情報に比べ物体位置情報を用いた推論で優れた検知能力を示す事例が確認された. |
H-002 |
深層強化学習を利用した動画要約
◎神 琛麒・張 善俊(神奈川大学)
×
H-002深層強化学習を利用した動画要約
◎神 琛麒・張 善俊(神奈川大学)
本研究では、深層強化学習(Deep Reinforcement Learning, DRL)を用いて、動画要約の品質向上に取り組んだ研究。DSNネットワークをベースラインモデルとして使用し、同じデータベースと分割手法を使用して、他の2つのモデルと比較実験を行う。評価指標には、F1スコアおよびSpearmanおよびKendallの2つの相関スコアを使用し、要約の品質を評価する。同時に、DSNネットワーク内の報酬関数の多様性と代表性の重みを調整することで、要約の品質を向上させる方法について検討する。 |
H-003 |
(講演取消) |
H-004 |
局所的な動作姿勢に着目した作業行動認識手法の検討
◎小林 拓椰・新倉 雄大・大橋 洋輝(日立製作所)
×
H-004局所的な動作姿勢に着目した作業行動認識手法の検討
◎小林 拓椰・新倉 雄大・大橋 洋輝(日立製作所)
本報告では、作業現場支援のために、衣服型センシングデバイスから取得できる骨格データを用いて作業行動認識を実施する手法について検討を行う。従来の作業行動認識手法では、作業行動を直接教師データとして学習するため、作業行動の種類が異なる他現場への導入コストが高くなってしまうという問題がある。そこで本報告では、体の局所領域ごとに汎用的な動作・姿勢を認識できるブロックを用意し、局所的な動作姿勢の組み合わせから作業行動を認識することで、少ない学習データでも幅広い作業行動に対応可能な手法を提案する。実験の結果、従来手法と比較して 7.4 %の識別率向上を実現した。 |
H-005 |
人物姿勢推定を用いた動画結合手法
◎沈 展帆(大阪府立佐野高等学校)・五十川 麻理子(慶應義塾大学)
×
H-005人物姿勢推定を用いた動画結合手法
◎沈 展帆(大阪府立佐野高等学校)・五十川 麻理子(慶應義塾大学)
SNSの普及などによって、人物動画を撮影し投稿しようとするユーザが増加している。その際、一般ユーザにとっては一度の撮影で高品質な動画を撮ることは困難であるため、複数の短い動画を結合するケースが多い。しかし、人物が映り込んだ動画を直接結合すると、時系列的な不整合が生じてしまう。本研究では、人物動画をスムーズに結合することを目指している。具体的には、動画に映り込んだ人物の姿勢情報を抽出し、動画間の姿勢情報をスムーズに結合・補完し、その姿勢情報に基づいて人物の外観を生成することで動画を結合する手法を提案する。 |
H-006 |
CNN-LSTMを用いた2D Human Motion Prediction
◎須藤 雅基・張 善俊(神奈川大学)
×
H-006CNN-LSTMを用いた2D Human Motion Prediction
◎須藤 雅基・張 善俊(神奈川大学)
Human Motion Predictionは対象人物の直前の動作や周囲環境を用いて未来の動作を予測する分野であり、近年発展が目覚ましいVR・AR・ロボティクスにおけるユーザー体験の向上や危険予測への応用などが期待されている。本研究ではCNN-LSTMを用いて軽量な2D動作予測モデルを作成し、精度と実行時間を検証する。また、モデルのモバイルデバイス上における実用性の検証を行い、それを通してARゴーグルなど計算資源の少ない端末上での動作予測タスクの実行可能性について考察する。 |
パターン認識・メディア理解 2 |
9月4日(水) 13:10-15:10 2j会場
座長 小川 賀代(日本女子大学) |
H-007 |
YOLOv7とカルマンフィルタを用いたサッカー試合映像中の移動体の位置推定に関する研究
◎山上 修市・黒木 修隆・沼 昌宏(神戸大学)
×
H-007YOLOv7とカルマンフィルタを用いたサッカー試合映像中の移動体の位置推定に関する研究
◎山上 修市・黒木 修隆・沼 昌宏(神戸大学)
サッカー競技においてセンサやカメラを用いるデータ取得方法では高い精度のデータを得ることができるが,導入に多大なコストがかかり,学生や一般のサッカーチームでは導入する事すら難しい.そこで,提案手法ではYOLOv7を用いて 単眼カメラの映像からボールの位置情報を取得し,カルマンフィルタを用いることで,観測出来なかった欠損値を補間する.これによってすべての時刻においてボールの位置情報を得ることができ,全体的な精度向上に繋がる.評価実験の結果,従来手法では再現率0.870 ,適合率0.933であったのに対し,提案手法では再現率0.920 ,適合率0.964の精度が得られた. |
H-008 |
バスケットボール放送映像におけるコート特徴点を利用したカメラの動き推定
◎田中 大晴・黒木 修隆・沼 昌宏(神戸大学)
×
H-008バスケットボール放送映像におけるコート特徴点を利用したカメラの動き推定
◎田中 大晴・黒木 修隆・沼 昌宏(神戸大学)
近年,ICTを用いたスポーツの解析において,計測用のセンサや特殊なカメラを用いるものがあるが,これらの方法では設備のコストが高いことや,ルール上の制約によりデータ取得が制限されるというようなデメリットがある. そこで,比較的入手が容易である試合中継の映像に物体検出AIを用いれば,様々なコストや労力を削減することが可能である.また,得られた情報を用いて3次元解析ができれば,選手視点で試合を振り返ることも可能である.これらを実現するための基礎技術として,撮影中のカメラの姿勢推定技術は非常に重要な役割を持つ. そこで,本論文ではYOLOによる物体検出技術を用いてコート内の特徴点の検出を行い,その情報を用いてカメラ位置の推定を行う. |
H-009 |
YOLOv7を用いたバレーボール映像の3次元解析に関する研究
◎和泉 湧士・黒木 修隆・沼 昌宏(神戸大学)
×
H-009YOLOv7を用いたバレーボール映像の3次元解析に関する研究
◎和泉 湧士・黒木 修隆・沼 昌宏(神戸大学)
従来のゲーム分析支援ソフトウェアでは手動でボールや選手の位置をタグ付けする必要があり, また, 平面的な入力インターフェースのため, 3 次元解析ができなかった. 本研究では単眼カメラからの映像より YOLOv7 を用いてボールやコートを検出することによってラベリングを自動化し, さらに重力を考慮した物理モデルに基づいて, ボールや選手の2次元座標を3次元に変換する手法を提案する. 実験の結果, ボールとコートはともに高い精度で検出でき, ラベリングの作業の多くを自動化することができた. また, この結果を用いてワールド座標を算出することができ, 3次元でUnity上で表示することができた. |
H-010 |
YOLOv7-pose-estimationを用いたダンス動画における同期度の定量評価
◎黒崎 大希・黒木 修隆・沼 昌宏(神戸大学)
×
H-010YOLOv7-pose-estimationを用いたダンス動画における同期度の定量評価
◎黒崎 大希・黒木 修隆・沼 昌宏(神戸大学)
近年ではスポーツやエンターテイメントにもAI評価が取り入れられており、ダンスにおいても決められたポーズやステップが正しく行われているかの評価が可能なシステムが存在する.しかし,このようなシステムには体全体の動作を対象としていない,個人のみにしか適応できないといった問題が存在する.集団のダンスのパフォーマンスを競う大会なども開かれていることから全体のダンスを評価する手法が必要である.以上を踏まえて,本研究では姿勢推定 AI モデルの一つである Yolov7 pose estimationとMulti Object Trackingモデルの一つである OC-SORTを組み合わせることによって集団全体のダンスの同期度の定量評価,および動画全体を通じた特定の個人のダンスと集団のダンスの同期度の定量評価を提案する. |
H-011 |
時間不変畳み込み層による不規則なCSIデータを用いたWi-Fi屋内測位
◎昼間 彪吾・井上 祐貴・佐藤 拓杜・大橋 洋輝(日立製作所)
×
H-011時間不変畳み込み層による不規則なCSIデータを用いたWi-Fi屋内測位
◎昼間 彪吾・井上 祐貴・佐藤 拓杜・大橋 洋輝(日立製作所)
近年、ユーザの位置情報は様々なシステム重要な情報源である。しかし、GPS電波が届かない商業施設や工場などの屋内環境では、環境内に測位用のセンサを設置する必要があり、そのコストの高さが課題となっている。特に従来手法では、広い環境に適用するためには多数のセンサが必要になり、その数に比例してメンテナンスコストが増加する。一方近年登場したWi-FiのCSIデータを用いる手法では、少ないセンサで広範囲をカバーできる強みが注目されている。しかし、同手法は精度面での課題があったため、本研究ではそれを改善する新しい深層学習モデルを提案した。実験では、屋内の建設現場で測位精度を評価し、省センサで従来手法と同等の精度を実現した。 |
H-012 |
データ特性情報の融合によるソナー画像に対する物体探知の汎用性向上の取り組み
◎辰巳 嵩豊・上里 達実(日立製作所)・秋山 靖浩(所属なし)・安藤 健人(日立製作所)
×
H-012データ特性情報の融合によるソナー画像に対する物体探知の汎用性向上の取り組み
◎辰巳 嵩豊・上里 達実(日立製作所)・秋山 靖浩(所属なし)・安藤 健人(日立製作所)
水中の物体探知にソナーが用いられており、省人化のために自動かつ高探知率・低誤探知率で物体を探知する仕組みが求められている。ソナーから得られるデータは、砂や泥などの水底の種類や水温など観測条件によって大きく特徴が異なるため、機械学習を用いた手法では特徴毎にモデルを作り分ける方式が高精度を実現しやすい。しかし、学習データの分割、複数モデルの学習や運用時の適切なモデル選択のコストから、単一モデルで様々な観測条件に対応することが求められている。本論文では汎用性向上策として推論対象とするデータ特性に関する追加情報をソナーデータと融合する手法を提案し、オープンデータに適用し提案手法の有用性を検証した。 |
パターン認識・メディア理解 3 |
9月4日(水) 15:30-17:30 3j会場
座長 黒木 修隆(神戸大学) |
H-013 |
LPFに耐性を持つAdversarial Exampleの生成法
◎小和田 雄太・菅間 幸司・和田 俊和(和歌山大学)
×
H-013LPFに耐性を持つAdversarial Exampleの生成法
◎小和田 雄太・菅間 幸司・和田 俊和(和歌山大学)
DNNなどの画像識別器の識別を誤らせるAdversarial Example (AE)は、高周波数成分を多く含むため、Low Pass Filter (LPF)による防御が可能である。一方で、このことを前提とした低周波数成分を多く含むAEの生成法に関する研究もある。本研究では、画像に特徴的な周波数成分を変化させることで、固定的な周波数フィルターでの防御が不可能なAEの生成法を提案する。 |
H-014 |
実環境評価型最適化を用いた単眼深度推定器に対する投光型敵対的攻撃
◎日下部 尊・向田 眞志保・小野 智司(鹿児島大学)
×
H-014実環境評価型最適化を用いた単眼深度推定器に対する投光型敵対的攻撃
◎日下部 尊・向田 眞志保・小野 智司(鹿児島大学)
近年,深層ニューラルネットワーク(Deep Neural Network: DNN)の進歩により,単眼深度推定の性能が飛躍的に向上している.一方で,DNNは微小な摂動が入力画像に加わると誤分類を引き起こす敵対的攻撃の脆弱性があることが指摘されており,単眼深度推定用のDNNにも同様の脆弱性が懸念されている。このため,実社会でのDNNを利用したシステムにおいて頑健性の向上が急務とされている.本研究では,対象シーンにプロジェクタを用いて摂動光を投影することで,単眼深度推定器の誤認識を引き起こす投光型敵対的攻撃方式を提案する.特に,実環境において解候補の評価を行うことで外乱を考慮した最適化を行う実環境評価型進化計算を利用する.実験により.対象シーンにおける物体が,本来の位置より後ろへ誤推定させる結果を確認した. |
H-015 |
画像変換ネットワークによる透明物体への材質変換
◎西長 紗奈(日本女子大学)・増田 康希・入山 太嗣・小室 孝(埼玉大学)・小川 賀代(日本女子大学)
×
H-015画像変換ネットワークによる透明物体への材質変換
◎西長 紗奈(日本女子大学)・増田 康希・入山 太嗣・小室 孝(埼玉大学)・小川 賀代(日本女子大学)
拡張現実感(AR)において、仮想物体が現実空間に融合することは重要であり、これを実現させるためには、背景画像に合わせた映像重畳が必要不可欠である。本研究では複雑な光学現象を有する透明物体に着目し、画像変換ネットワークを用いて材質変換を行った。画像変換ネットワークは、pixel shuffleと知覚損失を組み込んだpix2pixを用いた。透過性のない金属、陶磁器から透過性のあるガラスへの変換について検討を行った。実験結果より、透過や屈折による背景の映り込みが再現でき、透明物体の質感が確認できた。 |
H-016 |
視点補間ネットワークによる実物体の質感再現
◎西長 紗奈・水野 瑛梨(日本女子大学)・星澤 知宙・入山 太嗣・小室 孝(埼玉大学)・小川 賀代(日本女子大学)
×
H-016視点補間ネットワークによる実物体の質感再現
◎西長 紗奈・水野 瑛梨(日本女子大学)・星澤 知宙・入山 太嗣・小室 孝(埼玉大学)・小川 賀代(日本女子大学)
本研究では、複数の視点位置から撮影した実物体画像を入力とし、視点補間ネットワークを用いて中間視点における画像を生成し、質感再現を行った。生成に用いる入力画像は、広範囲から光があたる室内で撮影を行い、カメラは水平方向にのみ移動して撮影した。撮影物体の素材には、特定の方向に強く反射する物体や散乱が大きい物体などを用いた。画像生成にはU-Netを用い、CGで作成したデータセットを用いて学習を行った。実験結果より、視点位置による物体の形状や反射の変化を反映した画像が生成され、実物体の質感が再現されたことを確認した。 |
H-017 |
クラックの幅に着目した疑似画像データを用いたCNNによるクラック検出精度の評価
◎齋藤 実樹生・太田 修平・石井 信明(神奈川大学)
×
H-017クラックの幅に着目した疑似画像データを用いたCNNによるクラック検出精度の評価
◎齋藤 実樹生・太田 修平・石井 信明(神奈川大学)
コンクリート構造物のクラックの検出に有効的な手法の一つに,畳み込みニューラルネットワークがある.クラックの検出性能向上には多くの学習データを必要とするが,希少なクラックや新しい構造物の未知のクラックの場合は,学習用画像が少なく検出が難しい.そのため,クラックの特徴ごとにさまざまな疑似クラックを学習データとして生成し,特徴ごとにサブデータセットを作成してクラック検出を行うことが考えられる.本報では,クラックの特徴の一つであるクラックの幅に着目し,CNNによるクラック検出の精度に与える影響を評価した.その結果と考察を報告する. |
H-018 |
深層学習を用いた大型車両用タイヤの傷検出
◎田代 艶和・坂本 一磨・上田 芳弘(公立小松大学)・五十川 勇太・山川 泰翔(元公立小松大学)
×
H-018深層学習を用いた大型車両用タイヤの傷検出
◎田代 艶和・坂本 一磨・上田 芳弘(公立小松大学)・五十川 勇太・山川 泰翔(元公立小松大学)
現在,持続的な開発についての関心が世界中で高まっており,限られた資源を無駄なく利用することに合わせて,少子高齢化による人手不足の問題から,作業の効率化が求められている.共同研究を実施しているタイヤ関連機械メーカーでは,使用した大型車両用タイヤを回収し,廃棄するもの,表面を張り替え再生させるもの,及びそのまま利用するものの3パターンに分類を行っている.現状の作業では,作業員がタイヤの製造年月,傷の大きさ,深さを目視や手作業によって確認し,3パターンに分類している.そこで本研究では,深層学習を用いてこの作業を自動化し,作業者の負担軽減や業務効率の向上を目的とする. |
パターン認識・メディア理解 4 |
9月5日(木) 9:30-12:00 4j会場
座長 獅々堀 正幹(徳島大学) |
H-019 |
楕円パラメータの制約を用いた虹彩位置検出器の学習方法
◎坊良 翼・荻野 有加・庄司 悠歩・戸泉 貴裕(NEC)
×
H-019楕円パラメータの制約を用いた虹彩位置検出器の学習方法
◎坊良 翼・荻野 有加・庄司 悠歩・戸泉 貴裕(NEC)
本稿では楕円パラメータの制約を用いた楕円虹彩検出器の学習手法を提案する.虹彩認証では撮影画像から虹彩を検出するが,利用者の目線などにより虹彩が楕円形状で撮影された場合,従来の円検出器では検出精度が劣化する.虹彩を楕円として検出できれば検出精度の向上により利便性向上に繋がる.一方で楕円は一つの楕円形状に対して複数の楕円パラメータの組合せが存在するため,単純な回帰では正解が一つに定まらず楕円虹彩検出器の検出精度が劣化する.これに対して本稿では楕円パラメータの範囲を制約することで楕円虹彩検出器の検出精度を改善する.実験では楕円虹彩画像を用いて提案法による楕円虹彩の検出精度向上を示す. |
H-020 |
Azure Kinectを用いた骨格推定に基づく姿勢評価方法の改善
○小澤 佑起・金丸 隆志(工学院大学)
×
H-020Azure Kinectを用いた骨格推定に基づく姿勢評価方法の改善
○小澤 佑起・金丸 隆志(工学院大学)
我々の先行研究では、着座姿勢の客観的評価方法を実現するため、人体の骨格に基づいて算出される胸椎後弯角と頚椎前弯角をAzure Kinectを用いて推定する方法を提案した。 実証実験により、上記の手法を着座姿勢の評価に利用できる可能性があることが確認されたが、いくつかの問題が明らかになった。例えば、体全体を変化させた際の姿勢評価しかできないこと、推定した胸椎後弯角と頚椎前弯角の変化量が実測値に比べて小さく見積もられること、などである。本研究ではこれらの問題を改善し、手法の適用範囲を広げること、実測データの再現性を高めることを目指す。 |
H-021 |
Prophetによる製造プロセスの多次元時系列分析: プロセス因子相関の考慮による予測可能性向上法
◎吹田 駿介・山本 佑樹・浅田 勝義・山田 隆太・森川 貴文(UACJ)
×
H-021Prophetによる製造プロセスの多次元時系列分析: プロセス因子相関の考慮による予測可能性向上法
◎吹田 駿介・山本 佑樹・浅田 勝義・山田 隆太・森川 貴文(UACJ)
機械学習による時系列データ予測技術の進歩に伴い、工業プロセスにおける予測困難であった事象への機械学習モデル適用が多くの分野で望まれている。アルミニウム加工に使用される潤滑油性状の予測もその1つである。潤滑油性状は様々な計測値をもとに作業者の経験に補給排油量を調整することで製造に適した状態を維持しており、属人性を低減するためには性状変化の予測をもとに定量的に決定されることが望まれる。本研究では過去の補給排油実績と潤滑油の計測値を用いて関係因子を含めた性状の時系列予測を目的とし、多変量データである潤滑油性状に対して時系列モデリングを行い、そのパラメータと予測可能性を調査する。 |
H-022 |
軌道のスコアに基づく逆強化学習を用いた視覚演示からの報酬関数の推定
◎江尻 尚馬(東京都立産業技術高等専門学校)・福永 修一(広島工業大学)・黒木 啓之(東京都立産業技術高等専門学校)
×
H-022軌道のスコアに基づく逆強化学習を用いた視覚演示からの報酬関数の推定
◎江尻 尚馬(東京都立産業技術高等専門学校)・福永 修一(広島工業大学)・黒木 啓之(東京都立産業技術高等専門学校)
本研究は軌道のスコアに基づく逆強化学習を用いた視覚演示からの報酬関数の推定を目的とする.状態表現が抽象的な視覚演示から逆強化学習を用いて報酬関数を推定することにより,目的のタスクの達成につながる評価の高い行動と状態を解析することができる.通常の逆強化学習では熟練者による最適もしくは準最適な軌道が必要であるが,軌道のスコアに基づく逆強化学習は最適もしくは準最適ではない軌道が含まれていても学習が行える方法である.提案手法を平面2リンクマニピュレータの物理シミュレーションに適用し,最適もしくは準最適でない軌道が含まれたデータから学習できることを示す. |
H-023 |
Action Unitsによる表情認識技術を用いた健康状態の判別
◎大沢 毅・江尻 尚馬・黒木 啓之(東京都立産業技術高等専門学校)
×
H-023Action Unitsによる表情認識技術を用いた健康状態の判別
◎大沢 毅・江尻 尚馬・黒木 啓之(東京都立産業技術高等専門学校)
作業現場等では、けがや事故につながることから作業員の健康状況の表情などを用いた客観的指標による把握が大事である。 表情認識研究では画像情報からエクマン理論における6つの基本感情を分類できる。しかし、健康状態の判別では感情分類より次元数が膨大になり学習が難しい。そこでAction Unitsと呼ばれる画像から単一の表情筋と数値が一対一として得られる指標を用いると、表情筋の動きから学習が簡単にできる。その結果画像から健康状態の判別ができると考えられる。そこで本研究ではニューラルネットワークにおいて健康状態を判別する際Action Unitsを用いて行い、健康状態判別の可能性を表情認識技術を用いて模索していく。 |
H-024 |
Chinese and Japanese Scene Character Recognition Using Stroke-Level Synthetic Data
◎張 明路・後藤 英昭・菅沼 拓夫(東北⼤学)
×
H-024Chinese and Japanese Scene Character Recognition Using Stroke-Level Synthetic Data
◎張 明路・後藤 英昭・菅沼 拓夫(東北⼤学)
Even with the development of deep learning methods, the accuracy of Chinese and Japanese scene character recognition is still not satisfactory. Despite the noise in scene images, the training data is also quite limited, considering that Chinese and Japanese have much larger number of characters which are more complex in structure compared with other languages. We develop a semi-supervised method of stroke extraction for both Chinese and Japanese characters, and stroke-level annotated datasets can be generated based on the stroke information. The synthetic datasets and semantic segmentation models trained by the datasets have the potential to aid scene character recognition. |
パターン認識・メディア理解 5 |
9月5日(木) 15:30-17:30 5k会場
座長 黒木 啓之(東京都立産業技術高等専門学校) |
H-025 |
深層学習を用いた画像補完技術の改良
◎藤川 二千翔・大野 将樹・獅々堀 正幹(徳島大学)
×
H-025深層学習を用いた画像補完技術の改良
◎藤川 二千翔・大野 将樹・獅々堀 正幹(徳島大学)
画像補完とは,マスクした領域を補完して画像を復元する技術である. 2021年に発表された LaMaというモデルはそれまでの画像補完技術の課題であった高解像度の画像においても高い性能を示すモデルである.しかし,LaMaはマスク領域の近傍の色情報に大きな差が見られるような画像を補完する場合,マスク領域内が本来の色とかけ離れた,黒や灰色に近い色で補完されてしまう. 本研究では,入力マスク画像に着目し,LaMaの補完ネットワークに入力する前に,マスク領域の外に影などの背景と特徴が大きく異なる物体が写っている場合には,その領域も含む,もしくは含めないようにマスクを膨張・収縮する処理を導入することで,補完結果を改善する手法を提案する. |
H-026 |
深層学習を用いた枝豆内の異物検知
◎板東 千華・中井 悠斗・大津 朋也・山口 堅三・大野 将樹・獅々堀 正幹(徳島大学)・笹原 由雅・石嵜 雄一・青木 仁史(ニチレイフーズ)
×
H-026深層学習を用いた枝豆内の異物検知
◎板東 千華・中井 悠斗・大津 朋也・山口 堅三・大野 将樹・獅々堀 正幹(徳島大学)・笹原 由雅・石嵜 雄一・青木 仁史(ニチレイフーズ)
本研究では,光学技術と深層学習技術の1つである,物体検出モデルYOLOv5を融合させ,ランダムな角度や向きに配置された枝豆に混入している異物を高精度で検知することを目的とする.しかし,YOLOのクラス推定では,画像を縦横同数に分割したグリッドセル1つにつき1クラスを推定するため,1つのグリッドセル内に異物あり枝豆,異物なし枝豆の2つのクラスが入り込む可能性が高いランダム配置画像の精度は,目標値を下回った.そこで,ランダム配置画像のうち,密集している部分の枝豆を別の画像に切り分け,1つのグリッドセルにつき1クラスとなるような処理を施すと,精度が向上するのかについて検討する. |
H-027 |
尿細胞診報告様式に基づいた細胞診断システム
◎吉田 光佑・巨島 弘基・大野 将樹・尾矢 剛志・常山 幸一・獅々堀 正幹(徳島大学)
×
H-027尿細胞診報告様式に基づいた細胞診断システム
◎吉田 光佑・巨島 弘基・大野 将樹・尾矢 剛志・常山 幸一・獅々堀 正幹(徳島大学)
尿細胞診は被験者の負担が少ない有益な臨床検査の一つであるが,実施工程の多くが手動で行われており,検査に時間と労力を必要とする.この問題を解決するため,細胞診断を深層学習技術により自動化する動きが活発化している.CNN などの学習モデルは細胞画像に対して注目箇所は出力できるが,何を要因として判定したか理解することが難しい.この問題に対して,国際的な診断基準である尿細胞診報告様式に基づく診断システムを提案する.セグメンテーションを用いて核と細胞質の比(N/C 比)を計算し,小基準である核クロマチン増加・凝集クロマチン・核形不整に対して判定する.判定フローに準拠することにより,判定要因の明確化が期待できる。 |
H-028 |
IB Focal損失に基づく教師なし領域分割手法PiCIEの精度向上
◎林 正隆・大野 将樹・獅々堀 正幹(徳島大学)
×
H-028IB Focal損失に基づく教師なし領域分割手法PiCIEの精度向上
◎林 正隆・大野 将樹・獅々堀 正幹(徳島大学)
領域分割とは,画像をピクセル単位でクラス分類する技術であり,自動運転や医用画像解析など,様々なアプリケーションの基盤技術となっており,近年その重要性が高まっている.しかし,教師あり学習手法では正確なクラスラベルを人手でアノテーションする必要があるため,高品質かつ大規模なデータセットを作成することが困難である.近年,教師なし領域分割手法の研究が注目されており,その手法の1つにPiCIEがある.本研究では,PiCIE が大規模なデータセットにおいて,過学習を起こしやすい点に着目し,過学習を抑えるIB Focal Lossを導入することでこの問題を解決する.精度をAccuracy,mIoUの2つの指標で評価し,COCOStuffデータセットを用いて評価実験を行った. |
H-029 |
実物画像とイラスト画像の識別器導入による画像認識
◎麻野 泰地・土屋 誠司・渡部 広一(同志社大学)
×
H-029実物画像とイラスト画像の識別器導入による画像認識
◎麻野 泰地・土屋 誠司・渡部 広一(同志社大学)
本研究ではCNNによる写真かイラストかを分類する識別器を導入し,識別結果をもとに使用する物体認識モデルを切り替えることで画像認識を行った.本研究の目的は,画像認識において,入力画像が写真,イラストのいずれでも,被写体の一般的名称を特定できるようにすることである.識別器によって写真であると推測された画像は,学習データに写真を使用したCNNモデルで物体認識を行うようにし,イラストであると推測された画像は,学習データに写真から生成した擬似的なイラストを使用したCNNモデルで物体認識を行うようにした.モデルの正解率を検証する実験を行った結果,識別器は80%以上の正解率で画像を分類し,本手法では写真,イラストどちらの場合でも約60%の正解率で物体の名称を推測した. |
H-030 |
非厳密な領域アノテーションによる畳み込みニューラルネットワークの一般画像分類精度の向上
○荒井 敏・白川 真一・長尾 智晴(横浜国立大学)
×
H-030非厳密な領域アノテーションによる畳み込みニューラルネットワークの一般画像分類精度の向上
○荒井 敏・白川 真一・長尾 智晴(横浜国立大学)
限られた数の画像データを用いてより高精度の画像分類モデルを構築するため、クラスラベル以外の情報を画像に付与することで人間の知識をより深く利用するアプローチが考えられる。しかし従来、ラベル以外の情報をを付与する際は外接矩形や輪郭線の様な作業者の負担が大きい描画作業が必要であった。 筆者らはこれまでに作業者の負担が少ないアノテーション手法であるNon-strict Attentional Region Annotation (NARA)を提案し単一被写体の画像データセットにおいて精度向上効果を確認している。本研究ではより複雑な構図の一般画像データにNARAを適用したデータセットを作成し、提案手法の有効性を検証した。 |
画像認識・メディア理解 1 |
9月5日(木) 15:30-17:30 5m会場
座長 宮崎 大輔(広島市立大学) |
H-031 |
UAVによる空撮画像からの送電線領域の抽出
◎大月 教史・太田 寛志(岡山理科大学)
×
H-031UAVによる空撮画像からの送電線領域の抽出
◎大月 教史・太田 寛志(岡山理科大学)
近年では送電設備における架空地線や送電線の点検作業の効率化のためにUAVによる画像撮影が利用されてきている。この画像から線の異常を自動検出するには架空地線や送電線の領域を画像から正確に抽出する必要がある。本研究では、架空地線と送電線が複数本含まれている画像に対して、直線検出手法に基づき架空地線等のそれぞれの領域を抽出する方法を提案する。直線検出には一般にHough変換が用いられるが、投票値に対する閾値の設定の自動化が難しいという問題がある。そこで本方法では、Hough変換のパラメータ空間から直接的に架空地線等の直線の成分のみを見つけ出す。これにより、Hough変換に閾値を用いることなく領域を抽出することが可能になる。 |
H-032 |
GANによる架空地線画像からの異常判別
◎成 晨語・太田 寛志(岡山理科大学)
×
H-032GANによる架空地線画像からの異常判別
◎成 晨語・太田 寛志(岡山理科大学)
送電鉄塔に架線されている架空地線は送電線を落雷から守る働きがあり、定期的な点検によって表面に損傷等の異常があるか調べる必要がある。この点検作業を自動化するには深層学習を用いて架空地線画像から異常検知する手法が有効とされている。しかし、架空地線の異常発生は稀なため、異常の学習画像を収集するのが困難という問題がある。そこで、本研究ではAnoGANを基にした異常検知手法として、差分画像から異常度を計算する従来の方法を改良する方法と、差分画像の画素値の統計量から異常と正常のクラス分類する方法を提案する。実験の結果、前者の方法は改良前と比べて正解率が15.5%向上し、後者の方法では19.5%向上した。 |
H-033 |
ドメイン適応を用いたVision Transformerによる鍛造部品の不良品検出
○高木 裕也・藤田 和弘(龍谷大学)・中川 真言・世継 武志(髙橋金属)
×
H-033ドメイン適応を用いたVision Transformerによる鍛造部品の不良品検出
○高木 裕也・藤田 和弘(龍谷大学)・中川 真言・世継 武志(髙橋金属)
工業製品において外観検査は,安全性や信頼性などの観点から必要な工程である.現在,外観検査の多くは人間による目視で行われている.そのため,検査員の習熟度や疲労などによる検査精度のバラツキから,品質を一定に保てないことや,人手不足といった課題がある.本研究では,画像検査による外観検査の自動化を目的として,Vision Transformerを用いた鍛造部品の不良品検出について研究を行った.その結果,撮影時期による環境変化や部品の表面テクスチャの変化によって識別率が低下することがわかった.そこで,ドメイン適応を用いて,学習データとは異なる撮影時期のデータに対する識別率向上を目指した. |
H-034 |
大物体の三次元形状推定におけるフォトメトリックステレオ法
◎菊地 悠李・田村 仁(日本工業大学)
×
H-034大物体の三次元形状推定におけるフォトメトリックステレオ法
◎菊地 悠李・田村 仁(日本工業大学)
本研究では、フォトメトリックステレオ法を用いて、人間やそれに近いサイズの物体の三次元形状を1m以上の大物体と同様に復元する手法を提案する。従来の手法では小さな物体には適用できるが、大物体には適していなかった。そこで、Scalable, Detailed and Mask-Free Universal Photometric Stereoを採用し、その拡張性と詳細さを活かすことで、小さな対象にも高精度な法線情報を復元することが可能となった。これにより、人間や同様のサイズの物体に対する三次元形状の解析や応用が容易になり、幅広い領域での利用が期待される。 |
H-035 |
宅内画像を用いた行動推定のための学習モデル構築に関する一検討
◎渡邉 奨悟・橋本 真幸(東洋大学)
×
H-035宅内画像を用いた行動推定のための学習モデル構築に関する一検討
◎渡邉 奨悟・橋本 真幸(東洋大学)
宅内で利用するコミュニケーションロボットにおいては、利用者の状況を推定することでより受け入れられやすい会話を行うことが可能となる。本研究では、コミュニケーションロボットのカメラ画像からの行動推定に関する研究を行う。卓上など設置位置の低いカメラを用いて行動推定を行う場合、行動推定のキーとなる物体(本やスマートフォンなど)が遮蔽物などによってカメラに映らないケースが発生し、行動推定精度が劣化する問題がある。本研究では、通常の学習モデルにキーとなる物体を含まない画像を追加学習させることで、キーとなる物体が映っていないケースにおける行動推定精度の劣化を低減することが可能であることを確認した。 |
H-036 |
シングルボードコンピュータで動作できる手の動作予測モデルの作成と検討
◎岩田 雄介・田村 仁(日本工業大学)
×
H-036シングルボードコンピュータで動作できる手の動作予測モデルの作成と検討
◎岩田 雄介・田村 仁(日本工業大学)
深層学習の進歩にもかかわらず,人の行動予測における課題は依然として存在している.主な制約は,カメラの遅延,分類器の処理速度,精度および小型PCでのみの実装可能性だ.これらの課題に対処するためには,小型のPC上でも0.2〜0.5秒先の動きを予測できる新しい手法が求められている.そこで本研究では,小型のPC上でも動かせる人の動作予測モデルの作成を行う.小型のPCには並列処理が得意なシングルボードコンピュータJetson Orin Nanoを使用する.具体的には手を関節座標に変換し,RNNを用いて学習させ,未来の手の形を予測する.この実験によって得られた成果や詳細については,発表の際に詳しく説明する. |
パターン認識・メディア理解 6 |
9月6日(金) 9:30-12:00 6j会場
座長 入江 豪(東京理科大学) |
H-037 |
解像度方向への変分ベイズ情報伝搬による動画像からの3次元復元
油山 耀也・○田川 憲男(東京都立大学)
×
H-037解像度方向への変分ベイズ情報伝搬による動画像からの3次元復元
油山 耀也・○田川 憲男(東京都立大学)
本研究では、オプティカルフローに基づく構造化手法を検討する。オプティカルフローに基づく構造化手法を検討した.多重解像度処理は、エイリアシングを回避し、不連続性を保存する高密度な深度復元に適している。低解像度層から高解像度層への復元結果の伝搬は重要な問題である。本論文では、変分ベイズ推論に基づく方法を提案する。深度パラメータと動きパラメータの事後分布が、平均場近似に基づくベイズ推論によって各層で計算され、上層の事前分布に変換される。提案手法の有効性を、人工画像を用いた数値評価により確認した。その結果より、エイリアスを回避する安定なデプス復元、特に形状不連続を保った復元が可能であることがわかった。 |
H-038 |
関節回転制約を考慮したメッシュ回帰による手指姿勢推定の検討
○村上 智哉・箱﨑 浩平・高橋 正樹・金子 浩之(NHK放送技術研究所)
×
H-038関節回転制約を考慮したメッシュ回帰による手指姿勢推定の検討
○村上 智哉・箱﨑 浩平・高橋 正樹・金子 浩之(NHK放送技術研究所)
手話の実写映像から,人物の動きを手話モーションとして効率的に収集する技術の研究を進めている.深層学習を用いた手指姿勢推定モデルを活用することで,カメラ1台の簡易な環境での手話モーション収録が期待できる.手話の読み取りでは手指の位置や指先の接触など細かな動きが重要になるが,深層学習を用いた既存手法では、手指同士の遮蔽により推定される形状が破綻し,そこから得られる手指の姿勢も不自然となる課題があった.本稿では関節回転制約を新たに導入することで、手指形状の破綻を軽減させることが可能なメッシュ回帰モデルを提案する.実験により,遮蔽された手指の形状が破綻なく推定できることを確認したので報告する. |
H-039 |
Encoder Decoderモデルによって生成される高周波成分の有効性に関する検討
◎岡本 紗季・神野 健哉(東京都市大学)
×
H-039Encoder Decoderモデルによって生成される高周波成分の有効性に関する検討
◎岡本 紗季・神野 健哉(東京都市大学)
画像の品質を向上させるためには,高周波成分として知られる微細な情報が必要不可欠である.しかしながら,畳み込みニューラルネットワーク(CNN)では層が深くなるほどこれらの高周波成分が失われやすい傾向がある.実際,若者の顔画像を入力すると,高齢者の顔画像を出力するような老化変換モデルを学習した際に,高齢者の特徴であるシワなどの微細な情報が失われていることを確認した.そこで本稿では,情報量の少ない単純な画像とCNNを含むEncoder-Decoderモデルを用いて高周波成分を生成するための学習を行い,高周波成分の生成部分について検討を進める. |
H-040 |
BitNetを用いたVision Transformerの構築
◎井波 辰朗・神野 健哉(東京都市大学)
×
H-040BitNetを用いたVision Transformerの構築
◎井波 辰朗・神野 健哉(東京都市大学)
近年、LLMは自然言語処理において高い処理能力を得ているが、その反面膨大な計算量を有しており学習を行う事自体が非常に困難という問題を抱えている。それに対し、WangらはTransformerの全結合層を{-1,0,1}の重みを持つBitLinearに置き換えたBitNetを考案した。そこでは元のTransformerに対して精度を落とすことなくモデルサイズや計算量を大幅に削減することが出来ると発表されている。そこで、本研究ではTransformerを用いた画像分類モデルであるVision TransformerにおいてもBitLinearが有効なのか、またモデルサイズや計算量に影響はあるかを実験により検討し、深層学習におけるモデルサイズと量子化について考察する。 |
H-041 |
Skeleton Motion Based AGCN for Shoplifting Event detection
◎WANG ZHAOZHONG・鎌田 清一郎(早稲田大学)
×
H-041Skeleton Motion Based AGCN for Shoplifting Event detection
◎WANG ZHAOZHONG・鎌田 清一郎(早稲田大学)
Identification of crime events occurred in public area (e.g. shoplifting, robbery and vandalism) is a crucial point to prevent the crime economy losses and the property damage. Most previous studies recognize crime events by human-related actions from public surveillance systems. However, they pay attention to subjectively pre-defined crime actions which may lead a controversial judgment when these actions are not properly detected. Also, the performance on shoplifting detection is not efficient and reliable because of lack of attention on action recognition. |
H-042 |
Disaster Damage Detection from Hyperspectral Images using Discriminative Self-attention
◎LI HAOMING・鎌田 清一郎(早稲田大学)
×
H-042Disaster Damage Detection from Hyperspectral Images using Discriminative Self-attention
◎LI HAOMING・鎌田 清一郎(早稲田大学)
Natural disasters are increasing globally, necessitating efficient damage detection methods. Existing methods mainly use RGB images, providing limited damage details. This research targets extending detection capabilities to include damage categories. It aims to improve model robustness and transferability, addressing data scarcity and misclassification issues.Hyperspectral images offer detailed spectral information, enhancing damage discrimination. A novel training strategy improves model robustness, while a discriminative self-attention module enhances detection accuracy. Experiments on datasets like Indian Pines show significant accuracy improvements from 57.32% to 71.66%, validating the approach's effectiveness and robustness. |
パターン認識・メディア理解 7 |
9月6日(金) 13:10-15:40 7k会場
座長 神野 健哉(東京都市大学) |
H-043 |
(講演取消) |
H-044 |
AI-OCRを用いた電子部品の印字検査システム
○荒深 健伍・橋爪 進(奈良工業高等専門学校)
×
H-044AI-OCRを用いた電子部品の印字検査システム
○荒深 健伍・橋爪 進(奈良工業高等専門学校)
電子部品製造現場においては,印字を認識して検査分類を行うシステムが必要である.しかしながら,製品によって印字の色や形は様々であるため,事前の文字登録が必要なパターンマッチングでは対応しにくい.そこで,本研究では深層学習を用いたAI-OCRを応用することで,高精度かつ汎用性の高い印字検査を開発する.一般公開されているAI-OCRモデルは,様々な情景画像中の文字認識が可能な反面,特定の対象についての精度はそれほど高くない.そこで,本研究ではIC印字画像に対して「テキスト領域抽出」および「領域内文字認識」について3つのAI-OCRモデルの評価を行い,電子部品にとって最適な組み合わせを検討した. |
H-045 |
SAMを用いたプレゼンテーションにおける画像強調システムの作成
◎小林 稜生・鈴木 海友・松澤 智史(東京理科大学)
×
H-045SAMを用いたプレゼンテーションにおける画像強調システムの作成
◎小林 稜生・鈴木 海友・松澤 智史(東京理科大学)
[目的]プレゼンテーションを行う際に状況に合わせて画像の一部を強調するシステムを作る。今回の論文ではシステムの主要部分である物体の認識精度の向上を行う。 [方法]物体のセグメンテーションモデルSAM、Lang SAMを組み合わせる。 [実験結果]14枚の写真に対して36パターンの入力を行ったところ、物体認識の精度がSAMのみを用いた場合52.8%、Lang SAMでは61.1%、今回の手法では72.2%となった。 [今後の方針]物体認識の速度やさらなる精度向上を行うともに、システムの他要素の実装も行う。 |
H-046 |
スクロール表示の文章を用いたテキストリーディングによる個人識別の評価
◎黒谷 育史・垣内 洋介(広島工業大学)
×
H-046スクロール表示の文章を用いたテキストリーディングによる個人識別の評価
◎黒谷 育史・垣内 洋介(広島工業大学)
個人認証における生体認証は,覗き見に対して頑健であるが,なりすましのリスクが存在する.このリスクに対応する手法として,モニター上の文章を読ませたときの眼球運動を利用した手法が提案されている.しかし,測定の慣れによって他人を受け入れるリスクが無視できない点が課題として挙げられている.本論文では,自動スクロールで表示された文章を読むときの眼球運動から部分時系列の特徴量を抽出し,機械学習による個人識別を行う手法について評価する.3種類の文章を読ませたデータに対する実験の結果,F値の平均値は最も高い場合で77.0%,等価エラー率の平均値は最も低い場合で7.6%となった. |
H-047 |
CNNオートエンコーダを用いたトレンドアイテムのレコメンドシステムの構築
◎山下 航佑・原田 史子・島川 博光(立命館大学)
×
H-047CNNオートエンコーダを用いたトレンドアイテムのレコメンドシステムの構築
◎山下 航佑・原田 史子・島川 博光(立命館大学)
ファッションアイテムのトレンド最初期では、トレンド発信源である世界的ファッションブランドのコーディネート画像がWeb上で容易に見つかる一方、普段着として用いているコーディネート画像が見つかりにくい。本研究では、トレンド最初期アイテムの普段着向けの参考画像を推薦するアルゴリズムの構築を目指す。世界的ファッションブランドのコーディネート画像とファッション感度の高いユーザのコーディネート画像の2種類を学習データとしてオートエンコーダーを用いて画像の特徴を抽出する。これにより2つの学習データが離れた位置にベッティングされるようなベクトル空間を作成し、その中点に位置するような特徴を持つ画像を推薦する。 |
H-048 |
好ましい会話を検出するためのラベルを維持するデータ拡張
◎上野 晃英・島川 博光(立命館大学)
×
H-048好ましい会話を検出するためのラベルを維持するデータ拡張
◎上野 晃英・島川 博光(立命館大学)
本研究では,会話の盛り上がり分類のためのラベルを維持するデータ拡張手法を提案する.会話の盛り上がり分類のためのデータ拡張に人間が会話に対して持っている感覚を取り入れる.人間が感覚的に似ていると判別したデータ間の類似度とデータ拡張によって生成されたデータセット内の類似度を比較する.そして類似度別にデータセットを作成し,複数のモデルを訓練する. 実験の結果,人間の感覚をデータ拡張に取り入れることは有効であることが分かった.これにより、良質の訓練データを作れるので、良好な人間関係の構築を機械的に支援するために会話の盛り上がりの判別器が構築可能となる. |
パターン認識・メディア理解 8 |
9月6日(金) 13:10-15:40 7m会場
座長 西山 正志(鳥取大学) |
H-049 |
k-部分空間法
◎藤井 康仁・坂野 鋭(島根大学)
×
H-049k-部分空間法
◎藤井 康仁・坂野 鋭(島根大学)
本講演においては新しいクラスタリングアルゴリズム,k-部分空間法を提案し,実験的に有効性を示す. 従来,k-平均法などのクラスタリング法はセントロイドと呼ばれる特徴空間上の点を基礎として構成されていた.しかし,画像生成の立場では,セントロイドよりも部分空間の方が本質的である. この考え方から,セントロイドではなく部分空間を基礎としたクラスタリングアルゴリズムを構成し,画像生成,画像認識などの方法で有効性を実験的に示す. |
H-050 |
Graph-based Zero-Shot 物体検出におけるエッジカット手法の提案
◎田場 クリスティアン・山﨑 禎晃(青山学院大学)・伊東 聖矢(情報通信研究機構/青山学院大学)・大原 剛三(青山学院大学)
×
H-050Graph-based Zero-Shot 物体検出におけるエッジカット手法の提案
◎田場 クリスティアン・山﨑 禎晃(青山学院大学)・伊東 聖矢(情報通信研究機構/青山学院大学)・大原 剛三(青山学院大学)
画像に含まれる物体を検出する物体検出では,単語埋め込みなどの画像以外の 意味情報を用いることで,学習時の画像には含まれない未知の物体も検出する ゼロショット物体検出手法が研究されている.研究では,画像特徴と物体クラス の単語埋め込みをノード表現として構築した完全グラフを利用する手法に対し, 類似度の低いクラス間のエッジを事前に削除することで,物体検出精度の向上を 試みる.評価実験では,提案手法の有効性を検証するために,異なる言語資源 から獲得された2種類の単語埋め込みを利用した.その結果,提案手法は単語埋め 込みに依らず,既知および未知クラスの検出精度の向上に有効であることを確認した. |
H-051 |
Transformer-basedモデルによる運転者視界に対する物体検出性能の検討
◎小林 陽・猿田 和樹・陳 国躍・寺田 裕樹(秋田県立大学)
×
H-051Transformer-basedモデルによる運転者視界に対する物体検出性能の検討
◎小林 陽・猿田 和樹・陳 国躍・寺田 裕樹(秋田県立大学)
安全運転教育を目的として,物体検出と視線計測の融合により,運転者の注視物体を自動判定する研究が行われている.運転者への正確なフィードバックのためには,視界中の全物体のクラスと領域を完全に正しく検出することは必然であり,非常に高難度なタスクである.先行研究ではCNN-based物体検出モデルを用いているが,この前提を保証するには不十分な評価指標値となっている.また,自然環境などに起因する頻出のデータ品質劣化へのロバスト性は議論されていない.本研究では,Transformer-basedモデルの検出性能を独自データセット上で多角的に検証し,注視物体判定の物体検出パートでの有効性を明らかにした. |
H-052 |
深層学習を用いた仮想空間提示映像に対する注視物体の判定と評価
◎和田 健太郎・猿田 和樹・陳 国躍・寺田 裕樹・小林 陽(秋田県立大学)
×
H-052深層学習を用いた仮想空間提示映像に対する注視物体の判定と評価
◎和田 健太郎・猿田 和樹・陳 国躍・寺田 裕樹・小林 陽(秋田県立大学)
交通事故の発生要因のうち半数以上がドライバーの認知ミスであり,これまで交通事故減少のために,ドライバーの認知能力向上を目的とした運転者教育システムの研究が行われている.ドライバーが何をどの程度注視するのか把握することができれば,注視物体や見逃しなどを訓練後にフィードバックする効果的な教育が可能となる. 先行研究では仮想空間に運転映像を提示し,同一シーンに対するドライバーの注視物体を視線計測と物体検出により判定する仕組みを構築したものの,注視物体判定精度は十分ではなかった。本研究ではViTを用いてシステムを再構築し,注視物体判定精度の向上を図った。また,被験者別,シーン別に注視行動を評価した. |
H-053 |
(講演取消) |
H-054 |
シーンから得た多重解像度特徴群をattention機構で選択的に統合するsemantic segmentation
◎金子 周平・荒井 秀一(東京都市大学)
×
H-054シーンから得た多重解像度特徴群をattention機構で選択的に統合するsemantic segmentation
◎金子 周平・荒井 秀一(東京都市大学)
Semantic segmentationは、画像内の正確な物体識別と位置特定に極めて重要であり、コンピュータビジョンの基礎となる。複数の解像度を並列に処理するHigh-Resolution Network(HRNet)は高解像度情報を保持したまま特徴を抽象化することができるが、情報交換の際に、異なる解像度で得られた特徴量間の違いによらず単純に加算するため、特徴が消失してしまう問題がある。 そこで本稿では、squeeze and attention(SA)blockを導入することにより、解像度を超えた動的な特徴選択が可能な3つの統合手法を提案する。出力解像度特徴により重み付けする手法、他の解像度の特徴により重み付けする手法、2つの解像度の特徴により重み付する手法である。 |
画像認識・メディア理解 2 |
9月6日(金) 13:10-15:40 7n会場
座長 進 泰彰(三菱電機株式会社) |
H-055 |
MeMViT の時間方向へのマルチスケール拡張
◎神谷 広大・志水 秀熙・玉木 徹(名古屋工業大学)
×
H-055MeMViT の時間方向へのマルチスケール拡張
◎神谷 広大・志水 秀熙・玉木 徹(名古屋工業大学)
MeMViT(Memory-Augmented Multiscale Vision Transformer) はメモリをキャッシュすることで時間的サポートを強化させ,少ない計算量で高い性能を出すことができる.だが,MeMViTのメモリの大きさはレイヤーの深さによらず一定である.そこで,MeMViT のメモリを時間方向にマルチスケールさせ,より少ない計算量で高い性能を得ることを目標にする. |
H-056 |
高階サンプラーによる拡散確率モデルの画像生成品質向上
◎韓 宇・中村 和幸(明治大学)
×
H-056高階サンプラーによる拡散確率モデルの画像生成品質向上
◎韓 宇・中村 和幸(明治大学)
拡散確率モデル(Diffusion Probability Model; DPM)は強力な生成モデルであり、動画、画像、分子などの領域で高品質のサンプルを生成することができる。また、DPMは特徴空間での高品質の特徴生成にも適用できる。DPMはマルコフ連鎖モンテカルロ法(Markov Chain Monte Carlo; MCMC)、特にLangevin サンプラーと組み合わせることができ、生成品質を向上させることができる。 本講演では、拡散確率モデルの生成過程における、高階MCMCサンプラーの適用性について検討する。この高階サンプラーは、拡散確率モデルが学習した勾配情報を十分に利用する。適用例としてCIFAR10データを用いた結果、定量的・定性的に既存手法を凌駕したことを報告する。 |
H-057 |
Open-Vocabulary物体検出モデルの時空間動作検出への拡張
◎細谷 優・堀 史門・玉木 徹(名古屋工業大学)
×
H-057Open-Vocabulary物体検出モデルの時空間動作検出への拡張
◎細谷 優・堀 史門・玉木 徹(名古屋工業大学)
近年のコンピュータビジョンでは,Open-Vocabulary Object Detectionと呼ばれる,大規模な画像とテキストを関連づけた事前学習によって,未知クラスを分類可能な物体検出が研究されている.しかし,多くの事前学習モデルは画像用のモデルであり,映像データを扱う上で適していない.物体検出モデルの映像拡張手法として,画像用のモデルを動画用に拡張する手法が提案されており,本研究では,Open-Vocabularyの画像用物体検出モデルを動画用に拡張する手法を提案する. |
H-058 |
PaDiMを用いたブドウ葉の健康状態識別システムの提案
◎下總 有芽・小嶋 和徳・伊藤 慶明(岩手県立大学)
×
H-058PaDiMを用いたブドウ葉の健康状態識別システムの提案
◎下總 有芽・小嶋 和徳・伊藤 慶明(岩手県立大学)
近年、農業従事者の減少が続いており、人手不足が深刻な問題になっている。この問題を解決するためにドローンを活用した負担軽減を図る試みが実施されている。本研究では、ドローンを活用しブドウの健康状態を管理するシステムを構築する。ドローンで撮影した動画からブドウの葉の画像を切り出し、ブドウ葉の画像から健康状態を識別する。本稿では、CNNを用いた異常検知手法であるPaDiM(Patch Distribution Modeling)を用いることで、健康に異常のあるブドウ葉の検出精度の向上を図る。 |
H-059 |
行動予測を用いた犬の異常行動の検出手法の提案
◎高久 優典・田村 仁(日本工業大学)
×
H-059行動予測を用いた犬の異常行動の検出手法の提案
◎高久 優典・田村 仁(日本工業大学)
動物園やペットの監視による行動判別の自動化は,健康管理などの作業の効率化において必要とされている.しかし,動物のデータセットは数が少なく,人間を対象とした研究より進展が遅い.また,既存の異常検知手法は主に,欠品検出や防犯を目的として研究されている.そこで私は,犬の時系列データを用いて行動予測をすることで犬の異常行動の検出する手法を提案する.この手法は,特徴点の時系列データを機械学習に用いることで,次にする可能性がある正常な行動を予測し生成する.この予測した正常行動と実際の行動の差分を取ることで異常な行動を検出する.この結果については発表にて述べる. |
H-060 |
映像中の人物の手と物体のインタラクション検出
◎小西 陸斗・阿部 亨・中村 隆喜・菅沼 拓夫(東北大学)
×
H-060映像中の人物の手と物体のインタラクション検出
◎小西 陸斗・阿部 亨・中村 隆喜・菅沼 拓夫(東北大学)
人物と物体のインタラクション検出では,人物の骨格や動作など複数の情報の利用が有効であるが,従来手法の多くは,複数の情報を別々に扱っており,モデルの学習やモデルによる検出を効率的に行えない場合があった.これに対し,特定の動作が検出対象である場合,複数の情報から明示的に特徴量を設計すれば,処理の効率化が期待できる.そこで,筆者らは,手と物体のインタラクションにおいて,手で動かされる物体は前腕と同様の動きを示すことに着目し,手周辺の動きと前腕の動きの類似性を特徴量に用いてインタラクションの検出を効率的に行う手法を提案している.本稿では,この提案手法に関し,検出精度や処理効率における有効性を検証した結果を示す. |
H-061 |
(講演取消) |