講演情報

[4Yin-B-51]大規模ニュースを対象とした政治イベント情報抽出におけるLLM活用の試行と課題

〇朝倉 卓人1、東海林 拓人1、韓 南琦1、阪本 拓人1、宮尾 祐介1 (1. 東京大学)

キーワード:

情報抽出、政治学、大規模言語モデル

大規模ニュースコーパスを対象とした政治イベント情報抽出は、複雑なイベント定義や属性設計を伴い、従来は高コストな人手アノテーションを要してきた。本研究では、Factiva収録ニュース記事を対象に、PLOVER系の政治イベントスキーマに基づく情報抽出を大規模言語モデルで実行し、その実用可能性と課題を検討する。特に、Event typeを先行抽出し、その結果に応じて属性抽出を分岐させる二段階ワークフローを採用した。2024年1月の記事約1,000件を用いた実験の結果、Event type間および属性間で抽出成功率に大きな偏りが見られ、特に第2段階の属性抽出ではスキーマの複雑さに起因する高い失敗率が確認された。一方で、LLMの長文・表構造理解能力自体は高水準であることも示唆された。本発表では、代表例を用いた定性的分析を通じ、ニュース情報抽出におけるLLM活用の現実的な設計指針について議論する。