成人国产精品一级毛片视频,毛片三级在线观看,中国黄色在线观看,婷婷久久综合九色综合九七,久久久免费视频观看,国产99在线播放,日本成人福利

產品分類導航
CPHI制藥在線 資訊 Science:用AI模擬5億年的進化,創(chuàng)造出全新熒光蛋白,重新點亮生物學

Science:用AI模擬5億年的進化,創(chuàng)造出全新熒光蛋白,重新點亮生物學

熱門推薦: 蛋白質設計 人工智能 ESM3
作者:王聰  來源:生物世界
  2025-02-25
AI 初創(chuàng)公司 EvolutionaryScale 團隊在《Science》發(fā)文,開發(fā)人工智能語言模型 ESM3,其在思維鏈提示下模擬 5 億年進化生成新型綠色熒光蛋白 esmGFP,還能對蛋白質序列、結構和功能聯(lián)合推理,有望用于藥物設計等領域。

大約 35 億年前,地球從化學反應中誕生了最初的生命。大自然發(fā)明了 RNA、蛋白質和 DNA 這些生命的核心分子,并創(chuàng)造了核糖體這一分子工廠,它能根據基因組中的指令合成蛋白質。

蛋白質是奇妙的動態(tài)分子,具有令人難以置信的功能——從驅動運動的分子引擎,到捕獲光并將其轉化為能量的光合作用機器,構建細胞內部骨架的支架,與環(huán)境相互作用的復雜傳感器,以及運行生命程序和操作系統(tǒng)的信息處理系統(tǒng)等等,蛋白質關乎疾病與健康,許多救命藥物本身就是蛋白質。

生物學是用一種人類尚未理解的“語言”所書寫。如果我們能夠學會利用生物學的“語言”來讀寫,那么,生物學將變得可編程,反復試驗將被邏輯取代,費力的實驗將被模擬所替代。

2024年諾貝爾化學獎授予了 AI 蛋白質設計先驅 David Baker 教授以及 AI 蛋白質結構預測工具 AlphaFold 的開發(fā)者 Demis Hassabis 和 John Jumpe,他們的研究為我們利用 AI 來理解、想象和創(chuàng)造蛋白質奠定了基礎。

近日,AI 初創(chuàng)公司 EvolutionaryScale 的研究團隊在國際頂尖學術期刊 Science 上發(fā)表了題為:Simulating 500 million years of evolution with a language model 的研究論文。論文標題非常簡單直接,甚至是夸張——用語言模型模擬 5 億年的進化。

該研究開發(fā)了一種人工智能語言模型——ESM3,ESM3 在思維鏈(Chain of Thought)的提示下生成了一種全新的綠色熒光蛋白——esmGFP,其在進化上與天然的綠色熒光蛋白(GFP)差異巨大,與已知的最接近的熒光蛋白只有 58% 的序列同源性,大自然需要 5 億年時間才能進化出這種新型綠色熒光蛋白,也就是說,ESM3 模擬了 5 億年進化,創(chuàng)造了一種新型綠色熒光蛋白。

研究團隊表示,ESM3 是一款向生命科學領域的前沿人工智能語言模型,也是第一個同時對蛋白質的序列、結構和功能進行推理的生成式人工智能模型,它提升了我們利用生命密碼進行編程和創(chuàng)造的能力,讓我們能夠像設計建筑、制造機器和微芯片以及編寫計算機程序一樣,從底層原理出發(fā)來改造生物學。

ESM3

2023 年 3 月, Alexander Rives 領導的 Meta 蛋白質折疊團隊在 Science 期刊發(fā)表了題為:Evolutionary-scale prediction of atomic-level protein structure with a language model 的研究論文【2】。

該研究開發(fā)了一種名為 ESMFold 的蛋白質語言模型,能夠快速、準確、大規(guī)模預測蛋白質結構,僅花費兩周時間就預測了超過 6.17 億個蛋白質的結構,這些蛋白質來自細菌、病毒和其他尚未被表征的微生物。

ESMFold

然而,Meta 公司不久后解散了蛋白質折疊團隊,Alexander Rives 與團隊成員創(chuàng)立了 EvolutionaryScale,2024 年 6 月,EvolutionaryScale 完成了高達 1.42 億美元的種子輪融資,致力于開發(fā) AI 工具以深化對生物學的理解,進而造福人類健康和社會。

EvolutionaryScale

這項新研究所展示的 ESM3 模型,訓練自地球上多達數(shù)十億的天然蛋白質,ESM3 也是當今世界上訓練于最高通量 GPU 集群之一的前沿生物學生成式人工智能模型,它處于參數(shù)、算力和數(shù)據的最前沿,訓練時使用了超過 1×1024 次浮點運算和 980 億參數(shù)。

對蛋白質的序列、結構和功能進行推理

語言模型是基于離散單元或標記進行操作的。為了創(chuàng)建一個能夠對蛋白質的三個基本生物學特性——序列、結構和功能——進行推理的模型,必須將三維結構和功能轉化為離散的字母表,并構建一種將每個三維結構都寫成字母序列的方法。這使得 ESM3 能夠大規(guī)模訓練,從而釋放出新興的生成能力。ESM3 的詞匯表在同一個語言模型中將序列、結構和功能聯(lián)系起來。

ESM3 是通過一個簡單的目標進行訓練的。對于每種蛋白質,提取其序列、結構和功能,進行標記化處理,并部分屏蔽。ESM3 的任務是利用受自然語言處理模型啟發(fā)的掩碼語言建模目標來預測掩碼位置。為了完成這項任務,ESM3 必須從進化規(guī)模的數(shù)據中深入理解序列、結構和功能之間的聯(lián)系。當在數(shù)十億種蛋白質和數(shù)百億個參數(shù)的規(guī)模上進行擴展時,ESM3 學會了模擬進化(simulate evolution)。

鑒于通過實驗確定的結構和功能注釋的蛋白質的數(shù)量有限,研究團隊通過添加數(shù)億個合成數(shù)據點來擴充 ESM3 的多模態(tài)訓練數(shù)據集,這些合成數(shù)據點包括對各種序列的預測結構和功能。

ESM3

ESM3 是一個多軌道 Transformer,可以對蛋白質序列、結構和功能進行聯(lián)合推理

編程生物學

ESM3 作為一個生成式模型,它使生物學可編程,可以根據提示生成新的蛋白質??茖W家可以與 ESM3 互動,引導它進行各種應用創(chuàng)造。ESM3 可以通過從一組完全掩碼的 tokens 開始生成蛋白質,并迭代解掩,直到所有位置都被填充。由于序列、結構和功能都在訓練過程中被掩碼和預測,ESM3 可以在所有三種模態(tài)中生成。這個生成過程也可以由序列、結構和功能的部分或全部規(guī)范的任何組合來指導。

ESM3 的多模態(tài)推理能力使科學家能夠以前所未有的控制程度產生新的蛋白質。例如,可以提示該模型結合結構、序列和功能,為 PETase 的活性位點提出潛在框架,PETase 是一種降解聚對苯二甲酸乙二醇酯(PET)塑料的酶。

規(guī)模帶來的能力涌現(xiàn)

ESM3 在規(guī)模擴大時展現(xiàn)出解決復雜蛋白質設計任務的能力。其中一項任務是原子協(xié)調,即根據指定氨基酸在序列中相距甚遠但在結構中彼此靠近的原子位置的提示來設計蛋白質。這衡量了模型在結構生成時達到原子級精度的能力,對于設計功能性蛋白質至關重要。

ESM3 解決這些任務的能力會隨著規(guī)模的擴大而提升,也就是說,ESM3 解決更難的生成問題的能力取決于其規(guī)模。

ESM3 進一步通過使用類似于在大語言模型(LLM)中應用的人類反饋強化學習(RLHF)的對齊方法進行反饋改進。ESM3 能夠自我改進,而非從人類那里獲得反饋,它能對自身生成的內容質量進行評估。來自實驗室實驗或現(xiàn)有實驗數(shù)據的反饋也可用提升其生成能力。

ESM3 模型生成蛋白質的能力隨著規(guī)模的擴大而提升

ESM3 模型生成蛋白質的能力隨著規(guī)模的擴大而提升

模擬 5 億年的進化過程

綠色熒光蛋白(GFP)及其熒光蛋白家族,是自然界中最美麗的蛋白質之一。下村修、Martin Chalfie 和錢永健因發(fā)現(xiàn)和應用 GFP 而獲得了 2008 年諾貝爾化學獎。

GFP 是生物學中應用最廣泛的工具之一,被譽為“照亮了生命科學”。GFP 含有一種熒光發(fā)色團,其能吸收一個短波長的單色光子,捕獲其中部分能量,并以不同顏色、更長波長的新光子形式釋放其余能量。天然的 GFP 能夠吸收藍光并發(fā)出綠光。

GFP 是一種能自我轉變的蛋白質,其結構是一個由 11 條鏈組成的桶狀結構,中間有一條螺旋貫穿其中,在 GFP 折疊完成后,會自發(fā)地發(fā)生反應。在 GFP 的中心,構成蛋白質鏈的原子重新排列成新的結構,形成一個熒光發(fā)色團。這種機制是獨一無二的,沒有其他已知的蛋白質能自發(fā)地從自身結構中形成熒光發(fā)色團,這表明即使對大自然來說,產生熒光也并非易事。

科學家們在自然界中發(fā)現(xiàn)了許多 GFP 的變體,并在實驗室中對這些天然蛋白質進行了改造,創(chuàng)造出了新的 GFP 變體。最早的人工 GFP 變體是通過制造少量能增強亮度或改變顏色的基因突變而發(fā)現(xiàn)的。借助更先進的實驗室技術和機器學習方法,如今已能夠將這種搜索范圍擴大,從而找到與原始序列差異高達 20% 的 GFP 變體。但大多數(shù)功能性 GFP 突變并非來自蛋白質工程,而是通過探索自然界獲得的。

產生新的熒光蛋白的進化過程需要漫長的歲月,在遙遠的過去,大自然無意中發(fā)明了第一種熒光蛋白。天然熒光蛋白從遠古時期的祖先序列歷經數(shù)億年的演化,才變成了如今的模樣。

基于天然 GFP 核心區(qū)域幾個氨基酸殘基的結構,ESM3 通過一系列推理生成了新型 GFP 的候選結構。研究團隊在首次實驗中測試了生成的 96 種 GFP,發(fā)現(xiàn)其中一些會發(fā)出熒光,包括一種與自然界中的任何蛋白質都相去甚遠的蛋白質——B8,但其亮度只有天然 GFP 的五十分之一,而且其發(fā)色團成熟需要一周時間,而不是一天之內,但它在序列空間的一個未被探索的區(qū)域中呈現(xiàn)出功能信號。在 B8 的基礎上進行思維鏈推理,ESM3 又生成了一組 96 種蛋白質,其中有幾個熒光強度與天然 GFP 相似,最亮的一個位于 C10 孔中,研究團隊將其命名為——esmGFP。

esmGFP

esmGFP 與自然界中發(fā)現(xiàn)的最接近的熒光蛋白相比存在 96 處突變(在 229 個氨基酸中,序列相似度為 58%)。通過類似于對自然界中新發(fā)現(xiàn)的蛋白質進行的分析,研究團隊估計 esmGFP 相當于由進化模擬器完成的超過 5 億年的自然演化。

esmGFP

由ESM3模型生成的新的綠色熒光蛋白——esmGFP

據悉,EvolutionaryScale 公司正在開發(fā) ESM3 的專用版本,以解鎖前沿藥物設計領域的應用,助力科學家創(chuàng)造新型藥物。

EvolutionaryScale 公司表示,相信未來的人工智能將幫助我們在最基礎的層面上理解生命的復雜系統(tǒng),做出改變我們對生物學認知的新發(fā)現(xiàn),助力我們找到疾病治療方法,并構建一個更可持續(xù)的世界。

參考鏈接:

https://www.science.org/doi/10.1126/science.ads0018
https://www.science.org/doi/10.1126/science.ade2574
https://www.evolutionaryscale.ai/blog/esm3-release

相關文章

合作咨詢

   肖女士    021-33392297    Kelly.Xiao@imsinoexpo.com

2006-2025 上海博華國際展覽有限公司版權所有(保留一切權利) 滬ICP備05034851號-57
长白| 彭山县| 新津县| 宁陕县| 隆尧县| 长沙市| 屯门区| 门源| 江源县| 宝兴县| 盐池县| 昂仁县| 湘潭县| 扶余县| 郧西县| 黄骅市| 昌宁县| 阿鲁科尔沁旗| 沁水县| 定南县| 青铜峡市| 冷水江市| 板桥市| 拜城县| 荔浦县| 聂荣县| 嘉黎县| 理塘县| 雅江县| 靖宇县| 天水市| 视频| 黎平县| 比如县| 五大连池市| 弥勒县| 孙吴县| 九寨沟县| 弥渡县| 武山县| 子长县|