講演情報

[5B-01]テキストデータの再学習によるパラメータ変化量に基づいたLLMに対するメンバーシップ推論攻撃

*北村 拓斗1、鈴木 優1 (1. 岐阜大学)
発表者区分:学生
論文種別:ロングペーパー
インタラクティブ発表:あり

キーワード:

LLM、メンバーシップ推論攻撃、ニューラルネットワーク、機械学習、自然言語処理

メンバーシップ推論攻撃とは,与えられたデータがモデルの学習に使用されたデータかどうかを判定するタスクである.本研究では,与えられたテキストデータを大規模言語モデル(Large Language Model; LLM)で事前学習させたときに生じるパラメータの増減を観察することによって,メンバーシップ推論攻撃を行う手法を提案する.LLMの事前学習において,与えられたテキストデータを出力できるように学習を行う性質に注目した.LLMが事前学習に使用されたテキストデータを学習する場合,入力されたテキストデータを既に出力できるため,事前学習時のパラメータの変化量は少ないが,そうではないときはテキストデータを出力できるように学習を行うため,事前学習時のパラメータの変化量は大きいのではないかと考えた.実験の結果,Pythiaと呼ばれるLLMでは提案手法の精度が既存手法のMin-K% ProbとSaMIA*zlibの精度を,OPTとLlama-2では提案手法の精度がMin-K% Probの精度を上回ったため,仮説が実証された.