講演情報

[1J5-GS-10r-02]大規模ニュースデータを用いたセマンティッククラスタリング生成AIによる GDELT 意味辞書構築を通じた意味スキーマ抽出

〇盛田 真史1、上田 雅夫2 (1. 敷島製パン株式会社、2. 横浜市立大学)

キーワード:

GDELT、意味構造抽出、セマンティッククラスタリング、マーケティング

社会のデジタル化により、情報のデータベース化が進んだが、膨大なテキストデータから実務に有益な情報を得ることは難しくなっている。本研究は、この問題に対処するため、大規模言語モデル(LLM)を用いて意味辞書を作成し、データベースに蓄積されたテキストデータから高次の意味構造や文脈的解釈を体系的に捉える方法を提案する。 具体的には、大規模ニュースデータベースGDELTのV2Themesを利用し、電気自動車関連ニュースから、人間が解釈可能な意味スキーマ(高次の意味構造)を自動的に獲得する手法を提案する。提案手法では、LLMのAPI(OpenAI API)を用いてV2Themesに対する意味辞書を生成し、出現頻度やトークン情報などを用いてセマンティックなクラスタリングを実施した。 分析の結果、数百に及ぶニューステーマが、意味的に一貫した少数のクラスターへと集約されることを確認した。得られたクラスターは、「危機」「産業構造」「社会属性」「職能・権威」「制度・インフラ」といった解釈可能な意味スキーマとして整理可能であることが示された。この手法により、大量のテキストデータから社会動向を理解するための体系的な解釈軸を提供する。

コメント

コメントの閲覧・投稿にはログインが必要です。ログイン