講演情報
[4Yin-B-42]拡散型タンパク質言語モデルの埋め込みバイアスによる生成配列機能値分布の操作
〇井島 大弥1、田中 優次1、刑部 好弘1 (1. 株式会社日立製作所)
キーワード:
バイオインフォマティクス、生成モデル、タンパク質言語モデル、拡散言語モデル
機能性タンパク質の開発では、膨大なアミノ酸配列空間から有望な候補を優先的に探索する必要がある。近年、AIを用いた候補配列生成が広く検討されているが、既存の配列よりも高い機能をもつ配列を狙って生成することは依然として困難である。本研究では、拡散型タンパク質言語モデルにおいて埋め込み表現を介して生成配列の機能値分布を操作する手法を提案する。アミノ酸配列を埋め込み表現ベクトルzにエンコードし、zを条件として配列を再構成する条件付き拡散モデルを学習する。学習時にzの特定成分が機能値と相関するよう正則化し、生成時には当該成分にバイアスを加えることで、生成配列の機能値分布をシフトさせる。機能値予測モデルを用いた評価により、付加するバイアス量と生成配列の機能値分布シフトの関係を検証した。
