講演情報

[P082]薬剤師国家試験の質的構造や出題傾向の変化 ~ChatGPTを評価指標として~

【発表者】廣井 拓朗1、酒井 隆全1、大津 史子1 (1. 名城大学 薬学部 医薬品情報学研究室 (日本))
【目的】薬剤師国家試験(以後、国試)は6年制教育の導入以降、問題の構造や出題傾向に変化が見られる。しかし、問題そのものの質的変化を客観的に評価する試みは限られている。一方、生成AIは、専門的な質問に対して、ある程度正確に回答することが可能になった。そこで、生成AIであるGPT-4oを評価指標として、国試の質的構造や出題傾向の変化を明らかにすることを目的として検討を行った。
【方法】対象は、第97~110回までの国試とした。ChatGPT-4oの回答においては、問題文や選択肢はテキスト形式で入力し、図・表・グラフ・構造式などの視覚的要素を含む問題については、該当部分を画像としてGPT-4oに提示した。全問題に対して共通のプロンプトを用い、選択肢ごとの理由やエビデンスも含めて回答させた。出力された回答の正誤判定を行い、必須・理論・実践の区分に加え、症例・処方・検査値・連問・図・表・グラフ・写真・構造式・計算といった出題の特徴で分類して正答率を算出した。また、誤答について理由を確認した。
【結果】全体の正答率はいずれの回も約80%前後で、必須問題は約90%と高い正答率であった。また、症例や検査値を扱う問題など、文章中心の問題も正答率は高く、大きな変化は見られなかった。一方で、図・表・グラフ・写真・構造式・計算では、いずれの回においても正答率が低かった。不正解となった問題を詳細に確認したところ、実践の実務においては97回などの以前の問題では、AIが誤った知識や存在しない情報に基づいて誤答する傾向がみられた。一方で、最近の問題では、正しい知識を根拠としているにも関わらず、症例文や前提文を踏まえた文脈の解釈間違いによる誤答が増加した。
【考察】生成AIを解析指標として用いることで、国試の質的構造と出題傾向に関する質的な変化を可視化した。特に、図・表・計算など、視覚的・数値的な情報処理を含む問題では正答率が低く、文章中心の問題では高い正答率を示す傾向は一貫して確認され、この14年では大きな変化は認められなかった。誤答の分析結果より、過去の問題ではハルシネーションが原因であることが多かったのに対し、最近の問題では文脈理解の失敗が主な原因であった。これは、問題が単一知識の有無を問う設計から、複合的な情報処理や判断力を求める構造へと変化してきている可能性を示唆していると考える。