情報処理学会第88回全国大会

プロンプトインジェクションは，大規模言語モデル（LLM）を基盤とするアプリケーションへ悪意のある入力を行うことで，LLMにアプリケーションの設計意図とは異なるレスポンスを生成させる攻撃手法であり，機密情報の漏洩や不正利用につながるというリスクが指摘されている．本研究では、文章の意味的な一貫性に着目し，悪意ある入力がアプリケーションに渡る前に検出し実行を遮断することにより，プロンプトインジェクションを防ぐ手法を提案する．提案手法を実装し悪意のあるプロンプトを遮断できるかどうか評価実験を行い，プロンプトインジェクション対策として有効に機能し得ることを確認した．