情報処理学会 第86回全国大会 会期:2024年3月15日~17日

4U-08
Transformerデコーダを用いた画像内のテキスト領域検出の検討
○矢島英明,チーシャン レオ,北川智樹,西崎博光(山梨大)
通常の深層学習を用いたテキスト領域検出では,深層学習モデルの出力に対し画像処理を行ってテキスト領域を表すバウンディングボックスを得る.本稿では,Transformerデコーダを活用し,画像内のテキスト領域を表すバウンディングボックスをテキストとして直接推定する方法を検討する.このアプローチでは,画像からVisionTransfomerを通して抽出された特徴をTransformerデコーダに入力し,バウンディングボックスを表すテキストを直接推定する.実験の結果として,テキストとしてバンディングボックス領域を推定させることは可能であることが判明した.