講演情報

[SY14-08]救急科専門医試験における大規模言語モデルの性能の比較

*中原 匡一1,2、廣野 優介3、五十嵐 豊1,2、三宅 のどか1,2、乗井 達守4、田上 隆2、横堀 將司1,2 (1. 日本医科大学付属病院 高度救命救急センター、2. 日本医科大学 救急医学教室、3. 日本医科大学 医学部、4. ニューメキシコ大学 救急部)
【背景】大規模言語モデルは医療への応用の可能性を示しているが、救急医学における性能は不明である。GPTは医療に特化していない大規模言語モデルだが、画像認識能力を搭載している。救急科専門医試験を回答させ、過去モデル(画像認識能力なし)と比較した。【方法】5回の救急科専門医試験484問をChatGPTに回答させた。頑健性を評価するため、同じ問題を2度回答させた。問題を画像の有無、臨床/一般問題に分類し、画像を扱えない過去のモデルと比較した。【結果】968問中943の出題に回答、559問(59.3%)正解した。画像提示のない問題は画像提示のある問題と比べ正答率が有意に高く(63.8%vs46.3%,p<0.001)、臨床問題と一般問題では正答率に有意差は認めなかった(60.6%vs56.9%,p = 0.30)。回答の一致率はκ係数=0.67であった。新モデルは旧モデルと比べ、正答率は低下したが有意差はなかった(62.3%vs59.3%,p= 0.27)。【結語】GPTを用いて救急科専門医試験に回答させたが、前モデルと比べて回答しない問題が増加した。正答率は減少したが安全性が向上した可能性がある。