講演情報

[2Yin-B-38]数独ベンチマークによるHRM/TRMと大規模言語モデルの比較分析

〇唐澤 嶺1、森 昭斗1、市川 佳彦1 (1. 株式会社 Insight Edge)

キーワード:

再帰的推論、大規模言語モデル、制約充足問題

近年、大規模言語モデル(LLM)の推論能力が注目されているが、数独のような厳密な制約充足問題をツールなしで安定して解くことは依然として困難である。本研究では、潜在空間の状態を反復更新する再帰的推論モデルとして、階層的推論モデル(HRM)およびその簡略化モデル(TRM)に着目し、Sudoku-Bench(nikoli_100)を用いて主要なLLMと比較評価を行った。 実験の結果、LLMはいずれの評価設定においても低い正答率に留まったのに対し、HRMは98%、TRMは100%の完全正解率を達成した。さらに、推論過程の分析から、潜在空間内での反復処理によって、多くの難問に対してもわずか数ステップで正解へと収束する挙動が確認された。以上より、厳密な制約充足問題においては、潜在空間での再帰的処理を中核とする推論アーキテクチャが有効であることを示唆する。