The 40th Annual Conference of the Japanese Society for Artificial Intelligence, 2026

Presentation Information

9:30 AM - 9:45 AM JST(12:30 AM - 12:45 AM UTC)

[3F1-OS-8-03]LA-Bench 2025: A Dataset for Generating Executable Experimental Procedures from Experimental Instructions

〇Shota Kato¹, Toshihiko Nishida², Yusuke Sakai³, Haruka Ozaki⁴, Ayato Sugiyama², Ryota Yamada⁵ (1. Kyoto University, 2. Laboratory Automation Suppliers' Association, 3. University of Tokyo, 4. RIKEN, 5. Science Aid)

Keywords:

Experimental procedure generation,Automation,Experimental protocol,Benchmark dataset,Large language model

実験指示から実行可能な実験手順を生成する能力を評価するため，ベンチマークデータセットLA-Bench 2025を構築し，大規模言語モデル（LLM）を評価器として用いるLLM-as-a-judgeの評価設計を整理した．評価は共通採点基準（5点）と個別採点基準（5点）の合計10点満点とし，設計思想の異なる3種類の評価プロンプトと3種類のLLM評価器の組み合わせで計450回の評価を行った．その結果，得点傾向はプロンプトと評価器の組み合わせに依存し，最高得点を与えるプロンプトが評価器の種類によって入れ替わることを確認した．以上より，実験手順生成タスクの自動評価では単一の評価設計に依存せず，複数の評価設計を併用する必要があることが示唆された．

Comment

To browse or post comments, you must log in.Log in

Back to Session information