Presentation Information
[5Yin-A-57]What AI is Truly Useful for Young People: Building the Japanese Youth Culture Benchmark SakuraQA
〇Manami Hasegawa1, Yuka Miyata1, Waka Ito1, Manaka Odagaki1, Yuha Nishigata1, Kimio Kuramitsu1 (1. Japan Women's University)
Keywords:
Benchmark,Youth Culture,LLM Evaluation
近年,ChatGPTに代表される大規模言語モデル(LLM)は急速に普及している一方で,使えないと感じる若者が少なくないことが報告されている.その一因として,LLMが若者の流行や文化といった最新かつ世代固有の知識に十分対応できていない可能性がある.本研究では,日本の若者文化に対するLLMの対応力を体系的に評価するため,新たなベンチマークSakuraQAを構築した.日本女子大学の学生132名が当事者の視点から問題作成に参加し,サブカルチャー・おしゃれ・食べ物・流行語・エンタメの5カテゴリからなる410問の4択問題を構築した.本ベンチマークを用いて,オープンモデル5つおよびクローズドモデル3つを評価した結果,食べ物やおしゃれのカテゴリが性能が高かった.また,モデルごとに得意なカテゴリが違った.本研究は,若者文化という視点からLLMの限界と可能性を明らかにし,文化的適応性を考慮した評価・開発の重要性を示すものである.
