講演情報

15:26 〜 15:35

[66]ローカルVLM による臨床工学技士国家試験の回答精度評価

石田開 (湘南工科大学工学部人間環境学科)

【目的】画像認識性能を有したVLM は，様々な専門知識を学習済みであり，種々の医療系国家試験に合格可能な実力を有し，課題解決や学習面での助言を得られるといった利点がある．しかし，クラウド型AI はオンラインでのアクセスが必要なだけでなく，膨大なパラメータ数の関係から，ハードやコスト面で課題が残る．このような背景から，自身の環境で動作可能なローカルモデルが期待されているが，その実力は様々である．本研究では，複数のローカルVLM を対象に，臨床工学技士国家試験（以下CE 試験）の解答精度を評価することを目的とした．
【方法】９種のローカルVLM（Qwen3-VL-2B/4B/8BThinking／ Instruct，Pixtral-12B，Llama-3.2-11B，Llava-v1.6-mistral-7b）を用いて，第38 回CE 試験での回答精度を評価した．問題文・選択肢・図表（含まれる場合）を１つの画像として各VLM に入力した．実験はFew-shot でのプロンプトを定義し，正解の選択肢を１つ選ばせると共に，回答までの思考過程を生成させた．生成された解答・文章は，臨床工学技士１名が内容を精査し，評価した．すべての処理はPython 環境にて実施し，言語モデル用の高速化ライブラリであるUnsloth を用いた．
【結果】最も精度の高かったモデルは，Qwen3-VL-8B-Thinking であり，正答率は72% であった．
分野別に見ると，電子工学とシステム工学の正答率は100％であった．また，医学概論や臨床医学の分野も90％以上となった．一方，正答率の悪い分野では体外循環（18％）や医療機器安全管理学（47％）などとなった．なお，上述以外のモデルの正答率は17 ～ 46％程度であり，思考過程の生成においては，殆どのモデルがうまくいかなかった．
【考察】Qwen3-VL-8B-Thinking では，臨床工学に関する比較的高度な知識を学習していると考えらた．よって，これらのモデルに対してファインチューニングにより，より高度な知識を有するモデルへの応用が期待できる．

セッション詳細へ戻る