[1D2-OS-3a-03]MMRによる文選択とTF-IDFによる文圧縮を用いたニュース記事要約
〇石原 祥太郎1、澤 紀彦1(1. 株式会社日本経済新聞社)
キーワード:
自然言語処理、抽出型要約、MMR、TF-IDF
本研究では,ニュース記事を文章選択・圧縮で要約する手法を提案する.具体的には,記事を代表するN個の文章を抽出し,構文解析で各文章を圧縮する.指標としてMMR(Maximal Marginal Relevance)とTF-IDF(Term Frequency - Inverse Document Frequency)を用いた.実験の結果,提案手法は人間の編集者の作業と約26.7%の割合で同一の話題に言及していた.必ずしも高い一致率とは言えないが,それ以外の生成物も日本語として誤りが少なく,候補として採用できるものが多かった.提案手法には特定の語句の重み付けなどで編集者の意図を組み込みやすく,編集者の負担軽減に繋がる利点がある.

