情報処理学会第88回全国大会

本研究では、大規模言語モデル（BERT・BioBERT）を用いて薬物相互作用の重症度分類を行い、不均衡データに対するオーバーサンプリング手法（SMOTE・Borderline-SMOTE・ADASYN）の効果を比較した。DrugBankおよびDDInterを統合したデータセットを用いて、Macro-F1とクラス別Recallにより性能を評価した結果、BioBERTとBorderline-SMOTE の組合せが最も高い分類性能を示した。また SHAP 値を用いて予測根拠を解析し、薬剤名の寄与方向の不安定さや文脈理解の不足が誤分類の要因であることを明らかにした。以上より、LLM と適切な不均衡データ処理を組み合わせることで、より信頼性の高い重症度分類モデルが構築可能であることを示した。