Presentation Information
[1Yin-B-22]ASR Error Correction Using Display Timing and Word Co-occurrence in Slides
〇Masahito Toba1, Masaki Yamagata1, Taku Kato1, Hiroshi Fujimoto1, Takeshi Yoshimura1 (1. NTT DOCOMO, INC.)
Keywords:
automatic speech recognition,large language model,post-editing
会議支援システムの高度化に向け、高精度な音声認識の実現が期待される。しかし、汎用的な音声認識エンジンでは専門用語や社内用語といったキーワードの認識率が低く、その個別学習のコストも膨大である。この解決策として、大規模言語モデル(LLM)を用いた後処理が注目されている。しかし、会議に登場する全キーワードをLLMへ入力する単純な方法では発話タイミングとは無関係なキーワードによる過剰修正や、キーワードの文脈的関連性の欠如による修正漏れが生じる課題があった。本研究の目的は、会議音声におけるキーワード認識率の向上とその向上要因の分析である。提案手法では投影スライドの表示時刻情報を用いてキーワードと音声認識結果の紐付けを行うとともに、スライド内の単語間の共起関係に基づき、キーワードをグループ化してLLMに入力する。これにより発話タイミングと単語間の関連性を考慮した修正が可能となる。実験の結果、時刻情報による紐付けや、キーワードのグループ化を行わない逐次処理手法と比較して、キーワードの認識率が向上した。分析により時刻情報の活用が過剰修正の抑制に、グループ化が文脈を考慮した修正に寄与することを確認した。
