講演情報
[3Yin-A-52]医療問診訓練システムにおけるスロット抽出のためのLLM群の精度比較
〇阪口 直紀1、レオ チー シャン1、西崎 博光1、宇津呂 武仁2、星野 准一2、高垣 堅太郎1,3、川端 健一1、鈴木 章司1 (1. 山梨大学、2. 筑波大学、3. 東京科学大学)
キーワード:
大規模言語モデル、診療問診訓練、スロットフィーリング、対話内容自動評価
医療問診対話からのスロット(問診項目)自動抽出は,臨床問診訓練システムにおける定量的フィードバックに不可欠である.しかし,大規模言語モデル(LLM)間の抽出精度を体系的に比較したベンチマーク,とりわけローカル実行可能モデルに対する評価は不足している.本研究では,GPT-4oをベースラインとして,複数のローカルLLMによるスロット抽出精度を,5症候・232件の日本語医療対話テストデータで評価した.テストデータは7種の言語現象パターンに基づき体系的に構成し,ルールベースガードレールとLLM Judgeの2段階パイプラインで妥当性を判定した.その結果,Gemma3:4b(4B)がMATCH率80.6%でGPT-4o(71.6%)を上回った.3独立LLM評価者による信頼性検証ではFleiss' κ=0.665を得た.以上より,小規模ローカルLLMが医療スロット抽出においてクラウドモデルと同等以上の精度を達成しうることが示された.
