講演情報

14:30 〜 14:40

[SY14-08]救急科専門医試験における大規模言語モデルの性能の比較

*中原匡一^1,2、廣野優介³、五十嵐豊^1,2、三宅のどか^1,2、乗井達守⁴、田上隆²、横堀將司^1,2 (1. 日本医科大学付属病院高度救命救急センター、2. 日本医科大学救急医学教室、3. 日本医科大学医学部、4. ニューメキシコ大学救急部)

PDFダウンロード

【背景】大規模言語モデルは医療への応用の可能性を示しているが、救急医学における性能は不明である。ＧＰＴは医療に特化していない大規模言語モデルだが、画像認識能力を搭載している。救急科専門医試験を回答させ、過去モデル（画像認識能力なし）と比較した。【方法】５回の救急科専門医試験４８４問をＣｈａｔＧＰＴに回答させた。頑健性を評価するため、同じ問題を２度回答させた。問題を画像の有無、臨床／一般問題に分類し、画像を扱えない過去のモデルと比較した。【結果】９６８問中９４３の出題に回答、５５９問（５９．３％）正解した。画像提示のない問題は画像提示のある問題と比べ正答率が有意に高く（６３．８％ｖｓ４６．３％，ｐ＜０．００１）、臨床問題と一般問題では正答率に有意差は認めなかった（６０．６％ｖｓ５６．９％，ｐ　＝　０．３０）。回答の一致率はκ係数＝０．６７であった。新モデルは旧モデルと比べ、正答率は低下したが有意差はなかった（６２．３％ｖｓ５９．３％，ｐ＝　０．２７）。【結語】ＧＰＴを用いて救急科専門医試験に回答させたが、前モデルと比べて回答しない問題が増加した。正答率は減少したが安全性が向上した可能性がある。

セッション詳細へ戻る