Presentation Information
[15p-S2_204-9]Evaluation of Multi-modal LLM with Benchmark Set Requiring Figure Interpretations
〇Michiko Yoshitake1, Yuta Suzuki2, Ryo Igarashi1, Yoshitaka Ushiku1, Keisuke Nagato3 (1.OSX, 2.Osaka Univ., 3.Univ. Tokyo)
Keywords:
Multi-modal LLM,phase diagram,Arrhenius plot
マルチモーダル化に対応した材料科学分野用に、教科書から、図を使用しない と解答できない問題をベンチマークとして137個作成し昨春に発表した.今回、このベンチマークを 用いてGPTのいくつかのバージョンの評価を行った結果を報告する.バージョンアップとともに正答率が上がっている が,応答を詳しく解析すると,問題の分野・種類による得意・不得意がはっきりしており,事前 学習の効果やバー ジョンの特徴など が明らかになった.
