情報処理学会第86回全国大会

通常の深層学習を用いたテキスト領域検出では，深層学習モデルの出力に対し画像処理を行ってテキスト領域を表すバウンディングボックスを得る．本稿では，Transformerデコーダを活用し，画像内のテキスト領域を表すバウンディングボックスをテキストとして直接推定する方法を検討する．このアプローチでは，画像からVisionTransfomerを通して抽出された特徴をTransformerデコーダに入力し，バウンディングボックスを表すテキストを直接推定する．実験の結果として，テキストとしてバンディングボックス領域を推定させることは可能であることが判明した．