講演情報

[3F1-OS-8-03]LA-Bench 2025:実験指示から実行可能手順を生成するためのデータセット

〇加藤 祥太1、西田 理彦2、酒井 雄介3、尾崎 遼4、杉山 亜矢斗2、山田 涼太5 (1. 京都大学、2. ラボラトリーオートメーション協会、3. 東京大学、4. 理化学研究所、5. Science Aid株式会社)

キーワード:

実験手順生成、自動化、実験プロトコル、ベンチマークデータセット、大規模言語モデル

実験指示から実行可能な実験手順を生成する能力を評価するため,ベンチマークデータセットLA-Bench 2025を構築し,大規模言語モデル(LLM)を評価器として用いるLLM-as-a-judgeの評価設計を整理した.評価は共通採点基準(5点)と個別採点基準(5点)の合計10点満点とし,設計思想の異なる3種類の評価プロンプトと3種類のLLM評価器の組み合わせで計450回の評価を行った.その結果,得点傾向はプロンプトと評価器の組み合わせに依存し,最高得点を与えるプロンプトが評価器の種類によって入れ替わることを確認した.以上より,実験手順生成タスクの自動評価では単一の評価設計に依存せず,複数の評価設計を併用する必要があることが示唆された.