講演情報

[4C-03]Entity Resolution における同値クラスタを用いたブロッキング手法

*小泉 崇裕1、伊藤 寛祥2、吉本 龍司3、福島 幸宏4、原田 隆史5、森嶋 厚行2 (1. 筑波大学院 情報学学位プログラム 融合知能デザイン研究室、2. 筑波大学 図書館情報メディア系、3. 株式会社カーリル、4. 慶應義塾大学 文学部、5. 同志社大学 免許資格課程センター)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり

キーワード:

エンティティレゾリューション、ブロッキング、冗長性緩和、データ統合技術

Entity Resolution は,同一エンティティや重複レコードを発見することで,データの利活用を促進する重要な技術である.一般的な Entity Resolution 手法は多段の技術により構成され,序盤に適用するブロッキングステップを有している.それは,以降のステップお負荷を軽減するために比較候補を絞り込む重要な技術である.既存手法では,一致するエンティティが大量に含まれている場合に,多くの類似したペアが近傍に現れ,本来マッチャーで精査が必要なペアが,明らかに一致しているペアに埋もれる可能性がある.本研究では,特定の範囲にある近傍ペアをブロック化し,ブロック内の関係については推移的に導出ができる程度に削減した後,ブロック間で近傍探索を行う手法を提案する.また,2 つの異なる分布を持つ書誌データを用いて,提案手法の有効性を確認する.