講演情報

[5E-02]漢書検索システムの精度向上

*Que Song1、肖 川1,2、佐々木 勇和1、鬼塚 真1 (1. 大阪大学、2. 名古屋大学)
発表者区分:学生
論文種別:ショートペーパー
インタラクティブ発表:あり

キーワード:

検索モデル、⾔語モデル、情報抽出

漢文資料は,その特殊な文体や豊富な歴史的背景から,重要な文化遺産とされている.しかし,漢文の分かち書きの困難さや資料不足,そしてNERのような自然言語処理タスクの対応における課題が存在しているため,既存の手法では精度の高い情報抽出が難しい現状がある.特に,歴史的文献から正確に情報を抽出することは,文献研究や歴史的考察を行う上で重要であるが,資料圧倒的に不足している.本研究では,大規模言語モデルQwen2.5を用い,漢文テキストに対するNERの精度向上を目指している.具体的には,既存のC-CLUEデータセットを活用してモデルをFine-tuningし,各エンティティタイプに適切なラベルを付与することで,漢文資料の情報抽出を効率化する.これにより,歴史的文献からも有用な情報を抽出しやすくなり,将来的には歴史研究や文献解析の効率化に寄与すると期待される.本研究は,既存の手法を補完し,漢文資料から新たな知見を導き出す一助となることを目指す.