Presentation Information
[3F1-OS-8-03]LA-Bench 2025: A Dataset for Generating Executable Experimental Procedures from Experimental Instructions
〇Shota Kato1, Toshihiko Nishida2, Yusuke Sakai3, Haruka Ozaki4, Ayato Sugiyama2, Ryota Yamada5 (1. Kyoto University, 2. Laboratory Automation Suppliers' Association, 3. University of Tokyo, 4. RIKEN, 5. Science Aid)
Keywords:
Experimental procedure generation,Automation,Experimental protocol,Benchmark dataset,Large language model
実験指示から実行可能な実験手順を生成する能力を評価するため,ベンチマークデータセットLA-Bench 2025を構築し,大規模言語モデル(LLM)を評価器として用いるLLM-as-a-judgeの評価設計を整理した.評価は共通採点基準(5点)と個別採点基準(5点)の合計10点満点とし,設計思想の異なる3種類の評価プロンプトと3種類のLLM評価器の組み合わせで計450回の評価を行った.その結果,得点傾向はプロンプトと評価器の組み合わせに依存し,最高得点を与えるプロンプトが評価器の種類によって入れ替わることを確認した.以上より,実験手順生成タスクの自動評価では単一の評価設計に依存せず,複数の評価設計を併用する必要があることが示唆された.
