講演情報
[5Yin-A-16]ShigyoBench:日本の士業試験を対象としたLLMベンチマークの構築と性能評価
〇藤堂 真登1、石川 真之介1,2 (1. 株式会社豆蔵、2. 立教大学)
キーワード:
ベンチマーク、日本語データセット
士業資格試験におけるLLMの実務知識を定量評価することは社会実装の重要な指標となる。本研究では、宅建・行政書士・弁理士・司法書士・予備試験・司法試験・不動産鑑定士・公認会計士の8試験から短答式問題8,979問を収集し、ベンチマークShigyoBenchを構築した。再現可能なデータ構築フローを整備し、3モデルで評価した結果、Gemini-3-Proは多くの試験で合格ラインを上回った一方、GPT-5.1・Qwen-3-235Bは40--60%にとどまった。データセットはhttps://huggingface.co/datasets/todo1111/shigyobench で公開している。
