講演情報
[1Yin-A-35]大規模言語モデルの文脈判断に基づく蛋白質構造データバンクの文献リンク緻密化パイプラインの開発
〇佐久間 航也1、丹羽 智美2 (1. 名古屋大学、2. 大阪大学)
キーワード:
蛋白質構造データバンク、データ・文献リンク、構造生物学、大規模言語モデル、メタデータ補完
現在、Protein Data Bank(PDB)上のタンパク質立体構造と文献の記載を詳細にペア化するPDB-Descriptomeプロジェクトを進めている。しかし、PDB上には、すでにその立体構造を報告した構造生物学論文(Primary Citationと呼ぶ)が出版されているにもかかわらず、文献リンク情報が更新されていないエントリが多く存在する。PDBエントリには固有のPDB IDが付与されているが、注目しているPDB IDに言及した文献だとしても、構造比較などのための引用であることもあり、パターンマッチなどによりPrimary Citationであるかどうか判定するのは難しいと考えられる。今回、Primary Citationが既知かつPubMed Centralで全文取得なPDBエントリを対象に、大規模言語モデルを用いて、PDB IDの周辺の文脈からその文献がPrimary Citationであるか否か判定できるか検討した。結果、LLMを用いた文脈判断によりPrimary Citationが正確に判定できることが明らかになった。
