講演情報
[5Yin-A-63]論理推論と日常的推論のギャップに着目したLLMの推論能力評価:推論モデルと非推論モデルの比較
〇小関 健太郎1,2、阿部 裕彦1、安東 里沙子1、森下 貴允1、峯島 宏次1、岡田 光弘1 (1. 慶應義塾大学、2. 東京大学)
キーワード:
大規模言語モデル、推論モデル、論理
近年の大規模言語モデル (LLM) の進展において、推論モデルは高度な推論を要する数理科学ベンチマークで顕著な成功を収めている。一方で推論は、数理科学の理論的な問題解決のみならず、日常的な判断や問題解決においても重要な役割を果たす。しかしながら、推論モデルが数理科学的な領域の外部、特に日常的な場面における推論 (日常的推論) においても適切な推論が行えるのかということは十分に明らかになっていない。そこで本研究では、いくつかの形式的推論パターンに着目し、それらの推論パターンに基づく推論問題データセットを作成して、日常的推論能力の観点から推論モデルの推論傾向および推論能力を非推論モデルと評価・比較した。その結果、推論モデルが生成する推論過程や回答は標準的な論理に従う傾向が見られた一方で、非推論モデルに対して推論過程の出力を指示した場合、日常的に自然な解釈に基づく含意関係との一致率において複数のケースで推論モデルを上回る成績を示した。この結果は、現状の推論モデルには日常的推論を含む汎用的な推論の能力の獲得に向けて改善の余地があることを示唆する。
