講演情報

[4Yin-B-61]モデル合成を用いた大規模言語モデルの出力の多様性向上

〇角田康明¹、岩田具治²、田中利幸¹ (1. 京都大学、2. NTT株式会社)

キーワード：

大規模言語モデル、モデル合成、多様性

大規模言語モデルは様々なタスクにおいて高い性能を示しているものの、生成するテキストの多様性には課題がある。既存研究では形式的多様性と意味的多様性の2つの面から評価が行われており、人間の選好によって学習を行ったモデルは行っていないモデルと比べて、出力の形式的多様性が上がり意味的多様性が下がることが示されている。本研究では、出力の形式的多様性と意味的多様性の両方を備えたモデルを作成する手法を提案する。この手法は、RLHF済みのモデルの下位層とRLHFを行う前のモデルの上位層とを合成することで新たなモデルを得る。これは、モデルの下位層で形式的多様性を、上位層で意味的多様性を制御しているという仮説に基づいている。実験により、提案手法によって得られたモデルは、品質を大きく下げずに形式的多様性と意味的多様性の両方の観点で良好な性能を示した。提案手法はまた、既存手法として知られる温度付きサンプリングと比較しても、出力の品質と多様性の面で有効であることを示した。

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る