Presentation Information

[4Yin-B-42]Embedding Bias for Controlling the Functionality Distribution of Sequences Generated by a Diffusion Protein Language Model

〇Hiroya Ijima1, Yuji Tanaka1, Yoshihiro Osakabe1 (1. Hitachi, Ltd.)

Keywords:

Bioinformatics,Generative Model,Protein Language Model,Diffusion Language Model

機能性タンパク質の開発では、膨大なアミノ酸配列空間から有望な候補を優先的に探索する必要がある。近年、AIを用いた候補配列生成が広く検討されているが、既存の配列よりも高い機能をもつ配列を狙って生成することは依然として困難である。本研究では、拡散型タンパク質言語モデルにおいて埋め込み表現を介して生成配列の機能値分布を操作する手法を提案する。アミノ酸配列を埋め込み表現ベクトルzにエンコードし、zを条件として配列を再構成する条件付き拡散モデルを学習する。学習時にzの特定成分が機能値と相関するよう正則化し、生成時には当該成分にバイアスを加えることで、生成配列の機能値分布をシフトさせる。機能値予測モデルを用いた評価により、付加するバイアス量と生成配列の機能値分布シフトの関係を検証した。