講演情報

[3Yin-A-52]医療問診訓練システムにおけるスロット抽出のためのLLM群の精度比較

〇阪口直紀¹、レオチーシャン¹、西崎博光¹、宇津呂武仁²、星野准一²、高垣堅太郎^1,3、川端健一¹、鈴木章司¹ (1. 山梨大学、2. 筑波大学、3. 東京科学大学)

キーワード：

大規模言語モデル、診療問診訓練、スロットフィーリング、対話内容自動評価

医療問診対話からのスロット（問診項目）自動抽出は，臨床問診訓練システムにおける定量的フィードバックに不可欠である．しかし，大規模言語モデル（LLM）間の抽出精度を体系的に比較したベンチマーク，とりわけローカル実行可能モデルに対する評価は不足している．本研究では，GPT-4oをベースラインとして，複数のローカルLLMによるスロット抽出精度を，5症候・232件の日本語医療対話テストデータで評価した．テストデータは7種の言語現象パターンに基づき体系的に構成し，ルールベースガードレールとLLM Judgeの2段階パイプラインで妥当性を判定した．その結果，Gemma3:4b（4B）がMATCH率80.6%でGPT-4o（71.6%）を上回った．3独立LLM評価者による信頼性検証ではFleiss' κ=0.665を得た．以上より，小規模ローカルLLMが医療スロット抽出においてクラウドモデルと同等以上の精度を達成しうることが示された．

セッション詳細へ戻る