Presentation Information
[1Yin-A-29]Assessing Out-of-Distribution Generalization of Multimodal Foundation Models for Drug Discovery on Novel Protein Families
〇Shunichi Ito1,2, Akihiko Arakawa1, Keisuke Mizutani1 (1. CHUGAI PHARMACEUTICAL CO., LTD., 2. Kyoto University)
Keywords:
AI for Drug Discovery,Foundation Models,Protein language Models,Multimodal Learning,Extrapolation and Generalization
近年,創薬における基盤モデルの利用が進む中,タンパク質や化合物を統合学習したマルチモーダル基盤モデルが注目されている.しかし,創薬実務で重要となる未知 (OOD) のタンパク質に対する外挿性は十分に検証されていない.本研究ではBindingDB を用い,MAMMAL と,単一モダリティモデル(ESM-2,ChemBERTa)をCross Attention 等で統合したモデルを比較検証した.実験の結果,MAMMAL は学習時の損失(RMSE)において最も優れる一方,学習データに含まれないタンパク質ファミリーに対しては予測性能が著しく低下した.対照的に,単一モダリティモデルをCross Attention で統合した手法は,少パラメータながら物理化学的な相互作用を捉えることで,未知のタンパク質に対しても一定の予測性能を維持した.以上より,新規ターゲット予測が求められる実務においては,相互作用を考慮し単一モダリティモデルを組み合わせる手法が,汎用性と実用性の観点で優れている可能性が示唆された.
