講演情報
[4K5-GS-6c-03]オンラインおよびトークンレベルDPOによる機械翻訳の提案
〇張 引1、宇津呂 武仁1、永田 昌明2 (1. 筑波大学、2. NTTコミュニケーション科学基礎研究所)
キーワード:
機械翻訳、強化学習
直接選好最適化(Direct Preference Optimization:DPO)は、人間の選好に大規模言語モデルを整合させる手法として高い性能を示しているが、既存手法の多くはオフラインかつ系列レベルで適用されているため、動的なフィードバックへの適応や、省略・誤訳・局所的な流暢性といった細粒度の翻訳誤りを十分に捉えられない。本研究では、機械翻訳のためのオンライン・トークンレベルDPOを提案する。本手法は、学習中に選好データを生成・統合するオンライン最適化と、翻訳をトークン単位で扱う細粒度の選好モデリングを特徴とする。これにより、翻訳品質に寄与する局所的な翻訳選択をより効果的に学習できる。我々の手法を機械翻訳タスクに適用することにより、従来の系列レベルおよびオフラインDPO手法と比較して、訳の適切性が向上することが期待される。本研究により、細粒度かつオンラインな選好最適化が、より信頼性の高い適応的な機械翻訳システム構築に有効であることを示す。
