近日,中國科學(xué)技術(shù)大學(xué)認(rèn)知智能全國重點(diǎn)實驗室劉淇教授指導(dǎo)博士生張載熙和哈佛大學(xué)醫(yī)學(xué)院Marinka Zitnik教授課題組合作,設(shè)計了一種基于圖表示學(xué)習(xí)和蛋白質(zhì)語言模型的深度生成算法PocketGen,生成與小分子結(jié)合的蛋白質(zhì)口袋序列和空間結(jié)構(gòu)。實驗驗證表明,PocketGen在生成成功率和效率方面均超過了傳統(tǒng)方法。相關(guān)成果以“Efficient Generation of Protein Pockets with PocketGen”為題于北京時間11月15日發(fā)表于《自然·機(jī)器智能》(Nature Machine Intelligence)期刊。
研發(fā)適用于科學(xué)發(fā)現(xiàn)任務(wù)的人工智能算法,例如功能蛋白質(zhì)設(shè)計,是認(rèn)知智能全國重點(diǎn)實驗室的一個重要研究方向。在藥物發(fā)現(xiàn)和生物醫(yī)療領(lǐng)域,設(shè)計與小分子結(jié)合的功能蛋白質(zhì)(例如酶和生物傳感器)具有重要意義。然而,基于能量優(yōu)化和模板匹配的傳統(tǒng)方法計算速度慢、成功率低。基于深度學(xué)習(xí)的模型又存在分子-蛋白質(zhì)復(fù)雜相互作用建模難,序列-結(jié)構(gòu)依賴關(guān)系學(xué)習(xí)難等問題。因此,發(fā)展高效、高成功率且準(zhǔn)確反映物理化學(xué)規(guī)律的蛋白質(zhì)口袋生成算法是該領(lǐng)域的急切需求。
研究團(tuán)隊在前期蛋白質(zhì)口袋生成工作FAIR(NeurIPS 23 Spotlight)和PocketFlow(NeurIPS 24 Spotlight)的基礎(chǔ)上,研發(fā)了PocketGen(圖1)。PocketGen可以基于蛋白質(zhì)框架和結(jié)合小分子生成蛋白質(zhì)口袋序列和結(jié)構(gòu)(圖1a)。PocketGen主要由兩部分組成。第一部分為雙層圖Transformer編碼器(圖1b):該模型受蛋白質(zhì)固有的層級結(jié)構(gòu)啟發(fā),包括氨基酸層級編碼器和原子層級編碼器,學(xué)習(xí)不同細(xì)粒度的相互作用信息,并更新氨基酸/原子表示和坐標(biāo)。第二部分為蛋白質(zhì)預(yù)訓(xùn)練語言模型(圖1c):PocketGen高效微調(diào)了ESM2模型,輔助氨基酸序列預(yù)測。具體方法為:PocketGen固定大部分模型層不變,僅微調(diào)部分適應(yīng)層參數(shù),進(jìn)行序列-結(jié)構(gòu)信息交叉注意力計算,增強(qiáng)序列-結(jié)構(gòu)一致性。在實驗中,PocketGen模型不僅在親和力和結(jié)構(gòu)合理性等指標(biāo)上超過傳統(tǒng)方法,在計算效率方面也有大幅提高(相比傳統(tǒng)方法提升超過10倍)。
圖1. (a) 用PocketGen進(jìn)行蛋白質(zhì)序列-結(jié)構(gòu)共同設(shè)計。(b) 雙層圖Transformer編碼器;(c) 蛋白質(zhì)預(yù)訓(xùn)練語言模型用于序列預(yù)測及高效微調(diào)技術(shù)。
進(jìn)一步地,團(tuán)隊在芬太尼和艾必克等小分子結(jié)合蛋白質(zhì)口袋設(shè)計任務(wù)中進(jìn)行了驗證,并與新晉諾貝爾獎得主David Baker教授實驗室的生成模型RFDiffusion、RFDiffusionAA等進(jìn)行比較,驗證了PocketGen的有效性。另外,還將PocketGen產(chǎn)生的注意力矩陣與基于第一性原理和力場模擬分析軟件得到的結(jié)果進(jìn)行對比展示,表明基于深度學(xué)習(xí)的PocketGen具有較好可解釋性(圖2)。
圖2. 左側(cè)圖為薛定諤軟件分析的蛋白質(zhì)-小分子相互作用關(guān)系圖。在右側(cè)展示的是PocketGen兩個注意力矩陣頭的熱圖,與左側(cè)相互關(guān)系成功對應(yīng)上。
該工作推進(jìn)了深度生成模型用于功能蛋白質(zhì)設(shè)計,為進(jìn)一步理解蛋白質(zhì)設(shè)計規(guī)律并開展生物實驗驗證奠定了基礎(chǔ),也展現(xiàn)了人工智能方法在解決藥物研發(fā)和生物工程領(lǐng)域重要科學(xué)問題上的優(yōu)勢。