講演情報

[5L1-OS-30-04]科学タスクにおけるAIエージェント能力の包括的ベンチマーク評価複数ベンチマークによる横断的評価とAI for Scienceの現状可視化

〇鈴木 貴之1、山田 涼太1 (1. Science Aid株式会社)

キーワード:

AI for science、AI Scientist、Benchmark Evaluation

本研究は、科学タスクにおけるAIエージェントの能力を体系的に評価し、研究者がAIの信頼性を判断するための客観的材料を提供することを目的とする。
初期段階として、4種の科学ベンチマーク(GPQA、FrontierScience、LAB-Bench、BixBench)を用いて3つのモデルおよびカスタムAIエージェントを評価した。その結果、Gemini-3-flash-previewが全ベンチマークで最高性能を示した。一方、エージェント向けベンチマークBixBenchでは同モデルを用いた場合でも正答率46.8%にとどまり、複雑な生命科学データ解析はAIにとって依然困難であることが示された。また、モデル間で回答戦略に差異があり、Geminiは高Coverage(98.3%)・高Precision(68.9%)を両立するのに対し、他モデルは回答を控える傾向があるが、それがPrecision向上には繋がらなかった。
これらの知見は、研究者がAIに委任可能なタスクの判断に資する。今後はベンチマークおよびAIエージェントを拡充し、AI for Scienceの包括的な可視化を目指す。

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン