中國科學技術大學生命科學與醫(yī)學部教授劉海燕、副教授陳泉團隊與信息科學技術學院教授李厚強團隊合作,開發(fā)了一種基于深度學習為給定主鏈結構從頭設計氨基酸序列的算法ABACUS-R。經過實驗驗證,ABACUS-R的設計成功率和設計精度超過了原有統計能量模型ABACUS。相關成果7月21日發(fā)表于《自然—計算科學》。
近期有多項研究表明,用深度學習進行氨基酸序列設計,能在天然氨基酸殘基類型恢復率等計算指標上超過能量函數方法。但目前已正式發(fā)表的工作中,對相關方法的實驗驗證結果遠未達到能量函數方法的成功率。
據介紹,利用ABACUS-R進行序列設計的方法有兩部分。第一部分是一個多任務預訓練的編碼—解碼器網絡,用于對單個氨基酸的結構和化學環(huán)境進行隱空間編碼,再解碼為包括中心殘基氨基酸類型在內的多種真實特征;第二部分是把該編碼解碼網絡迭代應用于目標主鏈的每個氨基酸殘基,直到獲得最大程度自洽的全序列。
在理論驗證的基礎上,團隊嘗試用實驗表征了ABACUS-R對3個天然主鏈結構重新設計的57條序列,其中86%的序列可溶表達并能折疊為穩(wěn)定單體。實驗解析的5個高分辨晶體結構與目標結構高度一致。與此前報道的從頭設計蛋白相似,ABACUS-R從頭設計的蛋白表現出超高熱穩(wěn)定性,去折疊溫度大多可達100℃以上。
總的來說,相較于ABACUS模型,ABACUS-R序列設計具有更高的成功率和結構精度,進一步增強了數據驅動蛋白質從頭設計方法的實用性。ABACUS-R還可用于序列設計以外的其他任務。(見習記者 王敏)