情報処理学会 第87回全国大会

2Q-06
AIより生成されたソースコードの機械学習による識別手法の研究
○馮 天時,岸 知二(早大)
本研究は、ChatGPTによるコード生成が教育および採用試験での不正使用につながる可能性を防ぐため、AI生成コードを高精度で識別するモデルの構築を目指している。
従来研究で提案された「GPTSniffer」は一定の識別能力を示したものの、使用されたデータセットの規模や質が限られ、応用範囲が限定的であるという課題があったため、そこで本研究では、CodeNetを基に約4000組の大規模かつ高品質なデータセットを構築し、人間編集コードとAI生成コードの間に存在する特徴的な違いに関する既存研究の知見を活用することで、従来のベースラインモデルを超える性能を持つ新たな識別モデルを提案する。
本研究の最終的な目標は、教育や採用試験におけるAI生成コードの不正利用を効果的に検出できる実用的なツールを開発し、ChatGPTをはじめとする生成技術がもたらす課題に対応するとともに、関連分野の発展に寄与することである。