講演情報
[1]医療機器添付文書を用いた構造認識型RAG の構築
齊藤 孝賢1, 山内 康司1, 大畠 直人2 (1.東洋大学大学院生命科学研究科生体医工学専攻, 2.東洋大学理工学部生体医工学科)
【背景と目的】医療機器の再生処理に関する不適切記載のように,添付文書の適切な記述が課題となっている.医療特化型LLM(大規模言語モデル)の社会実装は,医療機関や医療機器企業の業務効率化やサービス向上に役立てられることが期待されている.我々はこれまでファインチューニングを用いたLLM を開発し昨年度の本大会で発表したが,存在しない用語などハルシネーションが観察された.その課題を解決するため,本年度は検索拡張生成(RAG)を用いて医療機器の添付文書に特化したLLM の開発を試みた.
【方法】開発言語はPython を使用し, 回答生成LLM にはLlama-3.1-Swallow-8B-Instruct-v0.1(Ollama 環境)を採用した .対象文書にはPMDA より取得した医療機器添付文書を用いた.検索拡張生成(RAG)は,外部文書集(PMDA)から関連情報(添付文書)を取得し,その内容をモデルが答えを作る際の根拠として言語モデルに入力することで回答を生成する手法である.添付文書にはテンプレートがあるため,それを利用した構造認識をおこなった.言語モデルには「添付文書の情報のみを用いて回答を生成すること,添付文書に情報が載っていない場合は載っていないと回答すること」という指示を与えた.評価用データセットとして,添付文書に記載のあるIn-Domain 群と,添付文書記載外のOut-of-Domain 群からなる計50問を作成し,回答を「完全正答/ 理想的な回答拒否」「部分正答/ 回答拒否」「ハザード(ハルシネーションなど危険な回答)」の3段階で判定した.
【結果】提案手法(RAG)はベースライン(LLM 単体)と比較し,ハザード発生数を有意に減少させた(p < 0.05).また,添付文書記載外の質問に対しても,学習知識による捏造をおこなわず適切に回答を拒否することに成功した.一方,検索漏れが原因で添付文書に記載のある内容が生成されない課題も見られた.今後は検索漏れを防ぎ図や表を付与するマルチモーダル化の方法を探る.
【方法】開発言語はPython を使用し, 回答生成LLM にはLlama-3.1-Swallow-8B-Instruct-v0.1(Ollama 環境)を採用した .対象文書にはPMDA より取得した医療機器添付文書を用いた.検索拡張生成(RAG)は,外部文書集(PMDA)から関連情報(添付文書)を取得し,その内容をモデルが答えを作る際の根拠として言語モデルに入力することで回答を生成する手法である.添付文書にはテンプレートがあるため,それを利用した構造認識をおこなった.言語モデルには「添付文書の情報のみを用いて回答を生成すること,添付文書に情報が載っていない場合は載っていないと回答すること」という指示を与えた.評価用データセットとして,添付文書に記載のあるIn-Domain 群と,添付文書記載外のOut-of-Domain 群からなる計50問を作成し,回答を「完全正答/ 理想的な回答拒否」「部分正答/ 回答拒否」「ハザード(ハルシネーションなど危険な回答)」の3段階で判定した.
【結果】提案手法(RAG)はベースライン(LLM 単体)と比較し,ハザード発生数を有意に減少させた(p < 0.05).また,添付文書記載外の質問に対しても,学習知識による捏造をおこなわず適切に回答を拒否することに成功した.一方,検索漏れが原因で添付文書に記載のある内容が生成されない課題も見られた.今後は検索漏れを防ぎ図や表を付与するマルチモーダル化の方法を探る.
