Presentation Information

[15p-S2_204-9]Evaluation of Multi-modal LLM with Benchmark Set Requiring Figure Interpretations

〇Michiko Yoshitake1, Yuta Suzuki2, Ryo Igarashi1, Yoshitaka Ushiku1, Keisuke Nagato3 (1.OSX, 2.Osaka Univ., 3.Univ. Tokyo)

Keywords:

Multi-modal LLM,phase diagram,Arrhenius plot

マルチモーダル化に対応した材料科学分野用に、教科書から、図を使用しない と解答できない問題をベンチマークとして137個作成し昨春に発表した.今回、このベンチマークを 用いてGPTのいくつかのバージョンの評価を行った結果を報告する.バージョンアップとともに正答率が上がっている が,応答を詳しく解析すると,問題の分野・種類による得意・不得意がはっきりしており,事前 学習の効果やバー ジョンの特徴など が明らかになった.