講演情報
[2Yin-A-58]RAG-Boost:LLMベース音声対話システムにおける検索拡張生成強化音声認識
〇鵬程 王1、勝 李1、隆宏 篠崎1 (1. 東京科学大学)
キーワード:
ASR、RAG、LLM
近年,Whisper に代表されるエンドツーエンド型の音声基盤モデルは,多言語音声認識および音響モデリングにおいて高い性能を示している。加えて,SLAM などの先行研究では,大規模言語モデル(LLM)の強力な文脈推論能力を ASR に活用する試みが進められている。一方で,両者を単純に組み合わせるだけでは,とりわけ複数ターンにわたる対話やドメイン特化対話において,意味的な不整合やハルシネーションが依然として発生する。そこで本研究では,複雑な対話シナリオにおける LLM ベース 自動音声認識 (ASR) を改善するための検索拡張フレームワーク RAG-Boost を提案する。RAG-Boost は,必要に応じて外部知識を推論過程へ動的に注入することで,ハルシネーションを抑制する。具体的には,音声表現をクエリとしてベクトルデータベースから関連するテキスト証拠およびドメイン用語を検索し,得られた証拠を LLM によるデコーディング過程へ統合することで認識誤りを補正する。本手法は,基盤モデル自体を改変することなく,文脈依存かつ知識に基づく ASR デコーディングを実現するとともに,認識結果に依存した検索を行う従来の検索拡張生成(RAG)で問題となる誤り伝播も回避する。
