抄録
H-034
DNNモデルの違いによる手話認識の精度比較に関する検討
菅野成希・渡邊滉大・亀山 渉(早大)
本稿では、手話認識に最適なディープラーニングのモデルを検討する。手話映像のRGB画像を入力とし、SPPを用いた2DCNNにLSTMを組み合わせたモデル、3DCNNのみのモデル、3DCNNとConvLSTM2Dを組み合わせたモデルを用意した。次に、手話映像のフレーム間のオプティカルフロー画像を入力とする2DCNNモデル、先の3個のモデルでRGB画像に加えてオプティカルフロー画像を入力とするモデルを用意し、計7個のモデルでLSA64データセットを用いた認識精度の比較を行った。実験の結果、SPPを用いた2DCNNにLSTMを組み合わせたモデルにRGB画像とオプティカルフロー画像を入力とする統合モデルで、97.8%の最も高い認識精度が得られた。