講演情報
[4Yin-A-37]和文抄録の逐次文分類に向けた転移学習アプローチ
〇山内 一礼1、安尾 和華1、桂井 麻里衣1 (1. 同志社大学)
キーワード:
逐次文分類、転移学習、学術文書処理
学術論文の抄録における逐次文分類(SSC)には,ドメイン固有のラベル付きデータが必要であり,手動アノテーションによる作成にはコストがかかる.本研究では,転移学習により,コンピュータサイエンス(CS)分野における効果的な日本語SSCが実現可能かどうかを検証する.新たに日本語CSデータセット(900件)を構築し,英語CSデータからの言語間転移と日本語医学データからの言語内転移を比較した.実験の結果,転移性能には言語類似性よりもドメイン類似性の方が寄与することが明らかになった.これは,対象ドメインデータが不足している場合でも,他言語の既存データセットをSSCに活用できることを示している.
