講演情報

[66]ローカルVLM による臨床工学技士国家試験の回答精度評価

石田 開 (湘南工科大学工学部人間環境学科)
【目的】画像認識性能を有したVLM は,様々な専門知識を学習済みであり,種々の医療系国家試験に合格可能な実力を有し,課題解決や学習面での助言を得られるといった利点がある.しかし,クラウド型AI はオンラインでのアクセスが必要なだけでなく,膨大なパラメータ数の関係から,ハードやコスト面で課題が残る.このような背景から,自身の環境で動作可能なローカルモデルが期待されているが,その実力は様々である.本研究では,複数のローカルVLM を対象に,臨床工学技士国家試験(以下CE 試験)の解答精度を評価することを目的とした.
【方法】9種のローカルVLM(Qwen3-VL-2B/4B/8BThinking/ Instruct,Pixtral-12B,Llama-3.2-11B,Llava-v1.6-mistral-7b)を用いて,第38 回CE 試験での回答精度を評価した.問題文・選択肢・図表(含まれる場合)を1つの画像として各VLM に入力した.実験はFew-shot でのプロンプトを定義し,正解の選択肢を1つ選ばせると共に,回答までの思考過程を生成させた.生成された解答・文章は,臨床工学技士1名が内容を精査し,評価した.すべての処理はPython 環境にて実施し,言語モデル用の高速化ライブラリであるUnsloth を用いた.
【結果】最も精度の高かったモデルは,Qwen3-VL-8B-Thinking であり,正答率は72% であった.
分野別に見ると,電子工学とシステム工学の正答率は100%であった.また,医学概論や臨床医学の分野も90%以上となった.一方,正答率の悪い分野では体外循環(18%)や医療機器安全管理学(47%)などとなった.なお,上述以外のモデルの正答率は17 ~ 46%程度であり,思考過程の生成においては,殆どのモデルがうまくいかなかった.
【考察】Qwen3-VL-8B-Thinking では,臨床工学に関する比較的高度な知識を学習していると考えらた.よって,これらのモデルに対してファインチューニングにより,より高度な知識を有するモデルへの応用が期待できる.