講演情報
[1E-04]任意のカラムの組合せを比較基準にして行える、巨大表形式データ上の特異性類似レコードの高速検索方法
*古庄 晋二1、飯沢 篤志2、手塚 宏史2、山本 幸生3、松久 孝志4、飯田 学4、光内 章4、船橋 弘路5、宗元 潤5 (1. NNIテクノロジーズ株式会社、2. 一般社団法人俯瞰工学研究所、3. 国立研究開発法人 宇宙航空研究開発機構、4. 株式会社セック、5. 株式会社エー・スター・クォンタム)
発表者区分:一般
論文種別:ロングペーパー
インタラクティブ発表:あり
論文種別:ロングペーパー
インタラクティブ発表:あり
キーワード:
類似レコード検索、巨大表形式データ、自然数インデックス(NNI)、名義尺度、順序尺度
事故や故障,歩留まりの低下といった非定常的なイベントが発生した際,アクセスログやIoTデータなどの巨大表形式データを活用して,イベント発生前後の特異な状態に類似する状態を検索できれば,予兆や原因を特定する手がかりとなり得る.この目的を達成するためには,(1)特異的な状態間の類似度を計量する方法と,(2)前記類似度の高いレコードを高速に検索する仕組みが必要である.本稿では,値を分布上の位置に置き換え,自己情報量で特異性類似度を計量する新しい方法を提案する.この方法は,名義・順序・間隔・比例といった全ての尺度に対応可能であり,単位や外れ値の影響を抑制しつつ,鋭敏かつ高精度に特異性を捉えることができる.さらに,自然数インデックス(NNI)技術を活用することで,巨大表形式データ上の特異性類似度の高速計算と類似レコードの高速検索を実現する.これらを組み合わせで,任意のカラムの組み合わせを基準とした特異性類似レコードの効率的な検索が可能となる.