情報処理学会第87回全国大会

近年，LLM（Large Language Models）の応用が拡大する一方で，プロンプト・インジェクションによる制約回避や意図しない有害情報の生成など，安全性の懸念が顕在化している．本研究では，生成テキストを事前処理と表示内容に分離する構造と，Chain-of-Thoughtの概念を組み合わせることで，応答の安全性を制御する枠組みを検討する．これにより，応答表示前に安全性評価を行えるため，予防的なリスク低減が可能となることを示す．検証の結果，当該手法が有害な応答頻度を低下させる傾向が確認された．この枠組みは，既存のLLMベースのサービスにも比較的容易に適用でき，運用者がサービスの信頼性確保に活用可能な基盤となりうる．