講演情報

14:15 〜 14:30

[5G3-OS-37b-02]RDFS-LLM-Bench: 大規模言語モデルによるRDFスキーマ推論の多段階評価ベンチマークの提案

〇細川泰智¹、チャクラボルティシュデシナ¹、森田武史¹ (1. 青山学院大学)

キーワード：

RDFスキーマ推論規則、反実仮想知識、大規模言語モデル、オントロジー、論理推論能力

大規模言語モデル（LLM）は多様なタスクで高い性能を示す一方，論理的推論を苦手とし，事前学習知識に依存して推論をする傾向がある．また，オントロジー言語における推論能力は十分に検証されていない．本研究では，RDFスキーマ推論規則に基づいてLLMの論理推論能力を体系的に評価するベンチマークを提案する．本ベンチマークは，リンクトオープンデータに基づく実世界知識データ，反実仮想知識データ，ランダム記号列データの三種類のデータセットと，規則の選択・適用能力を測る多段階の評価設定から構成される．商用およびオープンウェイトLLMを用いた評価実験を行った結果，LLMはランダム記号列データでは高い性能を示す一方，意味的語彙を含むデータでは命名規則などの言語的手がかりに依存し，特に高難度の反実仮想知識データでは構造的推論と言語的手がかりに基づく推論を分離できず精度が低下することが明らかになった．また，事前学習知識で情報を補完する傾向があり，これはデータが不完全な実環境で有用である可能性が観察された．これらの知見は，セマンティックWeb応用におけるLLM活用時の潜在能力と限界の両方を考慮する必要性を示す．

コメントの閲覧・投稿にはログインが必要です。ログイン

セッション詳細へ戻る