講演情報
[2C-04]大規模言語モデルによる結合可能な表の候補の絞り込み
*水井 涼介1、張 皓辰1、ヴュープカー テオドール3、肖 川1,2、鬼塚 真1 (1. 大阪大学、2. 名古屋大学、3. Leibniz Universität Hannover)
発表者区分:学生
論文種別:ショートペーパー
インタラクティブ発表:あり
論文種別:ショートペーパー
インタラクティブ発表:あり
キーワード:
データレイク、LLM
データレイクとはデータの形式を問わず格納できるデータ管理手法であり,その柔軟性から注目を浴びている.なかでも表形式のデータに対しては,データ分析を行う際に関係データベースで用いられる結合によって別々の表の情報を組み合わせる要求が大きい.しかし,利用者が構造を把握していないデータが多く存在するデータレイクでは,どのデータが結合できるかを判断するのは容易ではない.これまで提案された手法では問い合わせの表との関連度に基づき,結合可能である表の候補を探索するが,候補がすべて結合に適するとは限らない.利用者が候補を検討する負担はいまだ大きいため,本研究では大規模言語モデルを用いて候補を絞り込むことを提案する.既存手法とは独立に扱う枠組みとし,適切なプロンプト (指示文) によって候補の絞り込みが行えることを示す.