講演情報
[1Yin-B-05]LLMによる情報拡張を用いたテキスト分類精度の向上
〇菅原 慎吾1、岡野 悠1 (1. 株式会社レゾナック)
キーワード:
大規模言語モデル、テキスト分類、データ拡張
企業の購買管理マスタでは、属人性や慣例による品目名の表記揺れにより、同一品目が異なるマスタとして登録される「名寄せ」問題が発生する場合がある。このような品目名は短文で情報量が少なく、専門用語や固有名詞を多く含むため、従来の深層学習ベースのテキスト分類では高精度な識別が困難であった。また、大規模言語モデル(LLM)による直接分類は、出力の揺らぎや分類条件の厳密化の難しさから、安定した名寄せ処理には不向きである。本研究では、短文の購買品名に対してLLM(GPT‑4o)を用いて説明文を自動生成し、教師データの情報量を拡張する手法を提案する。具体的には、数千件の購買品名に対し、用途・仕様・関連分野などを含む説明文を生成し、BERTベースの11クラス分類モデルの学習に利用した。従来の生テキストのみを用いたモデルと比較した結果、正解率・適合率・再現率・F1スコアが概ね0.710±0.050から0.850±0.013へと改善した。本手法は、大規模な名寄せ問題を抱える企業におけるデータクレンジングおよび分類プロセスの高度化に有効なアプローチである。
