講演情報
[2C-01]矛盾を持つ構造データにおける効率的なデータクリーニング手法
*内藤 浩星1、伊藤 寛祥1、森嶋 厚行1 (1. 筑波大学)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり
論文種別:ロングペーパー
インタラクティブ発表:あり
キーワード:
データクリーニング、確率、可能世界、グラフデータ
データ分析を行ううえで,データクリーニングは重要なステップであり,多大なコストが費やされている.従って,データクリーニング手法の効率化が求められている.一般的にデータクリーニングでは,データ修正作業にコストがかかるため,その修正回数には制約がある.しかし,自動発見されるエラーは,多くの場合,実際に誤っているデータと,そうでないデータが入り混じっている.よって,修正の順序によって同じ回数修正を行った際のクリーニング効果が大きく異なる.既存研究では,データの不確実性等を手掛かりとしたクリーニングを行っている.本論文ではそのようなデータクリーニングにおいて,データに付与された確率と品質管理のため与えられた整合性制約に基づいて可能世界を探索し,有効な可能世界に効率的にたどり着くようにデータ修正の順序を決定する手法を検討する.実験により,可能世界探索に基づく手法がデータの不確実性による手法よりも大幅に効率よくデータクリーニングできることが確認できた.