講演情報
[6L-03]LLMを用いた文書補強とリランキングによる広範な統計データ検索
*黒川 博生1、宮森 恒1 (1. 京都産業大学 情報理工学部)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり
論文種別:ロングペーパー
インタラクティブ発表:あり
キーワード:
統計データ検索、メタデータ、文書補強、LLM、情報検索
統計データは,政府等が保有するオープンデータの一種であり,近年,社会問題となっているフェイクニュースに対処するための事実確認への活用をはじめ,有効活用するためのアドホック検索基盤の重要性が高まっている.しかし,従来の統計データ検索では,統計データの形式の制約から,CSV形式以外で提供されている表形式の統計データを十分に活用しきれていない.そこで,本稿ではLLMを用いた広範な文書補強による統計データのアドホック検索手法を提案する. 提案手法では,まず文書補強としてCSV形式で提供されている統計データ中の見出し,行ヘッダ,列ヘッダ,値に基づき,その内容説明をLLMで生成することでメタデータを補強した文書を作成する.また,PDFを対象とするために,データ全体から表を抽出し,表構造解析を行うことでCSVデータを作成し,文書補強に繋げる.次に,補強した文書を利用してランキングを行い,最後にLLMを用いて意味内容の類似に基づくリランキングを行う.実験では,日本語および英語のデータセットにおいて提案手法と従来手法によるランキング結果を比較評価する.