Presentation Information

[1J5-GS-10r-02]Semantic Clustering Using Large-Scale News DataExtracting Semantic Schemas through GDELT Semantic Dictionary Construction Using Generative AI

〇Masafumi Morita1, Masao Ueda2 (1. Pasco Shikishima Corporation, 2. Yokohama City University)

Keywords:

GDELT,Semantic structure extraction,Semantic clustering,Marketing

社会のデジタル化により、情報のデータベース化が進んだが、膨大なテキストデータから実務に有益な情報を得ることは難しくなっている。本研究は、この問題に対処するため、大規模言語モデル(LLM)を用いて意味辞書を作成し、データベースに蓄積されたテキストデータから高次の意味構造や文脈的解釈を体系的に捉える方法を提案する。 具体的には、大規模ニュースデータベースGDELTのV2Themesを利用し、電気自動車関連ニュースから、人間が解釈可能な意味スキーマ(高次の意味構造)を自動的に獲得する手法を提案する。提案手法では、LLMのAPI(OpenAI API)を用いてV2Themesに対する意味辞書を生成し、出現頻度やトークン情報などを用いてセマンティックなクラスタリングを実施した。 分析の結果、数百に及ぶニューステーマが、意味的に一貫した少数のクラスターへと集約されることを確認した。得られたクラスターは、「危機」「産業構造」「社会属性」「職能・権威」「制度・インフラ」といった解釈可能な意味スキーマとして整理可能であることが示された。この手法により、大量のテキストデータから社会動向を理解するための体系的な解釈軸を提供する。

Comment

To browse or post comments, you must log in.Log in