講演情報
[4Yin-A-58]思考過程に着目したReasoningモデルへの性格特性付与手法の検討
〇橋本 哲弥1、馬渕 充啓1、太田 幹2、尾崎 大晟2 (1. トヨタ自動車株式会社、2. 株式会社松尾研究所)
キーワード:
大規模言語モデル、性格特性、機械学習
人とAIの信頼関係構築は、人間性のような要素からなる感情的信頼と、タスク実行精度などの性能からなる認知的信頼に分けられるとされている。本研究では、人とAIの信頼関係における感情的信頼の実現を目的としており、その第一段階として人間らしい思考・性格を持つAIの構築を目指している。思考・性格を明確に学習するため、思考過程を出力可能な大規模言語モデル(LLM)である、Reasoningモデルを性格特性付与対象とした。
既存研究において、通常のLLMへの性格特性付与は検討されているが、Reasoningモデルを対象とした検討は十分なされていない。そこで、代表的な学習手法としてIn-context Learning (ICL)、Direct Preference Optimization (DPO)、Group Relative Policy Optimization (GRPO)を用い、Reasoningモデルに対して性格付与の比較評価を実施した。性格の表出度合いと汎用タスク精度について各手法を比較し、GRPOの他手法に対する優位性及び課題点を示すとともに、今後の方針検討を行った。
既存研究において、通常のLLMへの性格特性付与は検討されているが、Reasoningモデルを対象とした検討は十分なされていない。そこで、代表的な学習手法としてIn-context Learning (ICL)、Direct Preference Optimization (DPO)、Group Relative Policy Optimization (GRPO)を用い、Reasoningモデルに対して性格付与の比較評価を実施した。性格の表出度合いと汎用タスク精度について各手法を比較し、GRPOの他手法に対する優位性及び課題点を示すとともに、今後の方針検討を行った。
