機(jī)器學(xué)習(xí)(ML)正迅速改變包括生物催化在內(nèi)的多個科研領(lǐng)域的發(fā)展路徑。生物催化是指利用酶及生物系統(tǒng)介導(dǎo)化學(xué)反應(yīng)的過程,在制藥與工業(yè)應(yīng)用中具有重要意義。不過目前這一行業(yè)仍然存在許多亟需解決的問題。
比如說,自然界中已經(jīng)存在種類繁多的生物催化劑,現(xiàn)有且特征明確的酶只是冰山一角??砷_發(fā)空間是很巨大,但數(shù)據(jù)處理卻是個難題。而酶的催化性能對反應(yīng)環(huán)境(尤其是pH值)高度敏感,而工業(yè)生產(chǎn)中往往需要酶在非最佳條件下運(yùn)行。
在這一背景下,引入ML的數(shù)據(jù)處理功能來解決問題或許是這個行業(yè)發(fā)展的未來,此前Nature Communications上報道了一篇采訪文章,深入探討了機(jī)器學(xué)習(xí)在生物催化研究中的應(yīng)用與展望。
傳統(tǒng)困境
酶作為天然催化劑,其活性依賴于活性位點氨基酸殘基的質(zhì)子化狀態(tài)。例如,轉(zhuǎn)氨酶(一類依賴吡哆醛-5'-磷酸輔因子的酶)通常在堿性條件(pH 8.0-9.0)下表現(xiàn)最佳,但工業(yè)生產(chǎn)中常需與其他酶(如乳酸脫氫酶,最佳pH 7.5)聯(lián)用。這種pH不匹配導(dǎo)致整體反應(yīng)效率下降,甚至迫使企業(yè)放棄生物催化路線。
傳統(tǒng)解決方法依賴蛋白工程,通過突變活性中心附近的關(guān)鍵殘基來調(diào)節(jié)酶的pH依賴性。例如,科學(xué)家曾對一種轉(zhuǎn)氨酶進(jìn)行26個位點的突變,使其活性提升50萬倍。但這種方法實際上很看運(yùn)氣,完全是“盲人摸象”,缺乏對于酶-底物相互作用的全局理解,成本高周期長,實在是吃力不討好。
ML在生物催化劑開發(fā)中的新作用
隨著蛋白質(zhì)序列數(shù)據(jù)的爆炸式增長(從2018年的1.23億條增至2023年的24億條),機(jī)器學(xué)習(xí)在功能注釋、多樣性篩選和全新酶設(shè)計方面展現(xiàn)出巨大潛力。
機(jī)器學(xué)習(xí)能夠幫助探索蛋白質(zhì)適應(yīng)性空間,預(yù)測具有多個突變的變體功能,從而減少實驗中的試錯成本。在采訪中,瑞士蘇黎世應(yīng)用科學(xué)大學(xué)的 Rebecca Buller教授表示,她的團(tuán)隊通過機(jī)器學(xué)習(xí)輔助優(yōu)化了鹵化酶和酮還原酶,用于藥物前體的合成。
捷克的馬薩里克大學(xué)的Stanislav Mazurenko博士更專注于數(shù)據(jù)建模與分析。他在酶動力學(xué)和熱力學(xué)研究中意識到傳統(tǒng)建模方法的局限性,因而轉(zhuǎn)向機(jī)器學(xué)習(xí),嘗試從復(fù)雜生物數(shù)據(jù)中提取規(guī)律。近年來,他的團(tuán)隊利用蛋白質(zhì)語言模型生成新型生物催化劑,預(yù)測突變對酶性質(zhì)的影響,并探索量子計算方法在生物催化中的應(yīng)用。他強(qiáng)調(diào),機(jī)器學(xué)習(xí)在解決未注釋序列問題和指導(dǎo)蛋白質(zhì)工程方面具有獨(dú)特優(yōu)勢。通過語言模型和特定任務(wù)預(yù)測器,研究人員能夠探索整個蛋白質(zhì)序列空間,而不僅限于局部熱點。此外,機(jī)器學(xué)習(xí)正在模糊自然酶優(yōu)化與從頭設(shè)計之間的界限,為生物催化劑開發(fā)提供全新路徑。
加州大學(xué)圣塔芭芭拉分校的Yang Yang副教授的研究則聚焦于設(shè)計自然界中未知的酶活性,特別是基于過渡金屬和自由基反應(yīng)的酶催化系統(tǒng)。他致力于開發(fā)通用的機(jī)器學(xué)習(xí)指導(dǎo)方法,以加速生物催化劑的優(yōu)化與設(shè)計。他認(rèn)為,蛋白質(zhì)大型語言模型能夠識別適應(yīng)性空間中的隱藏規(guī)律,生成新型酶序列,并有望實現(xiàn)全新的酶功能設(shè)計。
目前ML結(jié)合酶催化的挑戰(zhàn)和解決方案
在三人的訪談中,數(shù)據(jù)稀缺性是個常被提到的重要問題。目前99.7%的酶功能未知,需構(gòu)建更大規(guī)模的酶-底物反應(yīng)數(shù)據(jù)庫。
Buller教授指出,許多實驗數(shù)據(jù)集通常規(guī)模小且不一致,限制了模型的學(xué)習(xí)能力。她認(rèn)為,呼吁建立類似蛋白質(zhì)數(shù)據(jù)庫(PDB)的高質(zhì)量生物數(shù)據(jù)資源,并確保實驗條件等元數(shù)據(jù)以機(jī)Mazurenko博士推薦遵循FAIR原則(可發(fā)現(xiàn)、可訪問、可互操作、可重用)存儲數(shù)據(jù),并采用EnzymeML等標(biāo)準(zhǔn)化數(shù)據(jù)交換格式。他還建議實驗人員學(xué)習(xí)“整潔數(shù)據(jù)”方法,以提升數(shù)據(jù)處理的效率與一致性。
Yang Yang副教授認(rèn)為生物催化領(lǐng)域缺乏大規(guī)模、高質(zhì)量的數(shù)據(jù)集,特別是具有合成化學(xué)背景的數(shù)據(jù),目前許多定向進(jìn)化研究仍僅報告有益突變,而機(jī)器學(xué)習(xí)需要全面數(shù)據(jù)(包括有害突變)。他呼吁社區(qū)共享更多公開數(shù)據(jù)集,并加強(qiáng)不確定性表征與統(tǒng)計分析。
而關(guān)于模型可解釋性上來看,開發(fā)一個可用于解釋物理意義的算法也是其中關(guān)鍵。酶功能受多種因素影響,而實驗數(shù)據(jù)往往無法完全捕捉這些變量。Mazurenko博士建議通過系統(tǒng)化數(shù)據(jù)收集和多任務(wù)學(xué)習(xí)方法提升模型魯棒性。
而ML的最終目的是做到多學(xué)科跨尺度的整合,這一點是未來景觀的最終構(gòu)想。需將量子化學(xué)計算、分子動力學(xué)模擬與機(jī)器學(xué)習(xí)結(jié)合,實現(xiàn)從原子到反應(yīng)器的全鏈條優(yōu)化。
想要解決上述這些問題還需打好基礎(chǔ),三人都一致認(rèn)為跨學(xué)科合作是推動機(jī)器學(xué)習(xí)在生物催化中應(yīng)用的核心。
這離不開資助人才,培訓(xùn)人才,人才合作。計算專家應(yīng)了解蛋白質(zhì)科學(xué)的基本知識,而實驗人員需掌握數(shù)據(jù)管理和機(jī)器學(xué)習(xí)的基本原理。只有這樣機(jī)器學(xué)習(xí)專家與生物催化研究人員才能夠更好地協(xié)同工作。
總結(jié)
總的來說,這篇采訪讓人看到了機(jī)器學(xué)習(xí)在生物催化領(lǐng)域的廣闊前景,同時也認(rèn)識到數(shù)據(jù)、合作與標(biāo)準(zhǔn)化仍是推動其發(fā)展的關(guān)鍵。隨著跨學(xué)科合作的深化與技術(shù)工具的不斷進(jìn)步,機(jī)器學(xué)習(xí)有望在生物催化研究中發(fā)揮越來越重要的作用。
參考來源:
Machine learning applied to biocatalysis research. Nat Commun 16, 8771 (2025). https://doi.org/10.1038/s41467-025-64510-y
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com
2006-2025 上海博華國際展覽有限公司版權(quán)所有(保留一切權(quán)利)
滬ICP備05034851號-57