講演情報

[1Yin-A-35]大規模言語モデルの文脈判断に基づく蛋白質構造データバンクの文献リンク緻密化パイプラインの開発

〇佐久間航也¹、丹羽智美² (1. 名古屋大学、2. 大阪大学)

キーワード：

蛋白質構造データバンク、データ・文献リンク、構造生物学、大規模言語モデル、メタデータ補完

現在、Protein Data Bank（PDB）上のタンパク質立体構造と文献の記載を詳細にペア化するPDB-Descriptomeプロジェクトを進めている。しかし、PDB上には、すでにその立体構造を報告した構造生物学論文（Primary Citationと呼ぶ）が出版されているにもかかわらず、文献リンク情報が更新されていないエントリが多く存在する。PDBエントリには固有のPDB IDが付与されているが、注目しているPDB IDに言及した文献だとしても、構造比較などのための引用であることもあり、パターンマッチなどによりPrimary Citationであるかどうか判定するのは難しいと考えられる。今回、Primary Citationが既知かつPubMed Centralで全文取得なPDBエントリを対象に、大規模言語モデルを用いて、PDB IDの周辺の文脈からその文献がPrimary Citationであるか否か判定できるか検討した。結果、LLMを用いた文脈判断によりPrimary Citationが正確に判定できることが明らかになった。

セッション詳細へ戻る