講演情報
[1Yin-A-13]和文参考文献文字列の書誌同定基盤としての複数書誌データベース統合グラフの構築
〇平井 克之1、金沢 輝一2、林 貴宏3 (1. 新潟医療福祉大学、2. 国立情報学研究所、3. 関西大学)
キーワード:
書誌データ、名寄せ、引用索引データベース
引用索引データベースの構築に向けて、参考文献文字列の書誌同定は不可欠な処理である。しかし、探索対象となるデータベース内、あるいは複数データベース間において同一著作が適切に名寄せされていない場合、同一エンティティが異なる文献として扱われ、正確な引用関係を構築できないという課題がある。特に和文文献に関しては、このような著作同定の取り組みはほとんど進んでいない。そこで本研究では、書籍については全国書誌とNACSIS-CAT、論文については雑誌記事索引とJaLCを対象とし、レコードにメタデータとして収録されている識別子の一致、またはタイトルと著者の組合せの一致に基づいて、これらをグラフデータベース(Neo4j)上に統合した。構築したグラフの連結成分を解析した結果、著作単位として有用なクラスタが形成されていることを確認した。一方で、全集や共通タイトルの存在により、本来は異なる著作同士が過剰に連結されるという課題も明らかになった。本発表では、大規模書誌グラフの構築手法について述べるとともに、形成された連結成分の規模や性質など、グラフの構造的特徴について報告する。
