細(xì)胞(Cell)作為生命的基本單位,是一個(gè)極其復(fù)雜精妙的實(shí)體,其特性和行為對物理和計(jì)算模型的極限構(gòu)成了挑戰(zhàn)。每個(gè)細(xì)胞都是一個(gè)動(dòng)態(tài)且具有適應(yīng)性的系統(tǒng),在其中,復(fù)雜的活動(dòng)源自無數(shù)的分子間相互作用。為了理解細(xì)胞的功能,科學(xué)家們試圖構(gòu)建虛擬細(xì)胞(Virtual Cell)模型來模擬、預(yù)測和引導(dǎo)細(xì)胞的行為。
如今,在人工智能和組學(xué)領(lǐng)域發(fā)生的令人振奮的科技革命,使得直接從數(shù)據(jù)中學(xué)習(xí)構(gòu)建細(xì)胞模型成為可能。這些科技革命為一個(gè)雄心勃勃的人工智能虛擬細(xì)胞(AIVC)愿景提供了前所未有的機(jī)遇,AIVC 是一種基于大規(guī)模神經(jīng)網(wǎng)絡(luò)的多尺度、多模態(tài)模型,能夠表征和模擬分子、細(xì)胞和組織在各種狀態(tài)下的行為。
目前,已有多個(gè)研究團(tuán)隊(duì)正在競相開發(fā)人工智能(AI)模型,以建模生命的基本單位--細(xì)胞,并預(yù)測細(xì)胞的行為。
2024 年 12 月 12 日,"陳-扎克伯格倡議"(CZI)的科學(xué)負(fù)責(zé)人 Stephen Quake 聯(lián)合 40 多位學(xué)者,在 Cell 期刊發(fā)表了題為:How to build the virtual cell with artificial intelligence: Priorities and opportunities 的展望文章,介紹了利用人工智能(AI)創(chuàng)建虛擬細(xì)胞(Virtual Cell)的重點(diǎn)和機(jī)遇【1】。
如果 Stephen Quake 如愿以償,未來生物學(xué)家將大大減少在做實(shí)驗(yàn)上花費(fèi)的時(shí)間。他表示,我們的目標(biāo)是開發(fā) AI 虛擬細(xì)胞模型,這將成為理解疾病發(fā)病機(jī)制的一個(gè)非常強(qiáng)大的計(jì)算工具,在他的設(shè)想中,虛擬細(xì)胞負(fù)責(zé)預(yù)測,人類科學(xué)家負(fù)責(zé)實(shí)驗(yàn)驗(yàn)證,從而讓細(xì)胞生物學(xué)從"90% 實(shí)驗(yàn) + 10% 計(jì)算"轉(zhuǎn)變?yōu)?90% 計(jì)算+10% 實(shí)驗(yàn)"。
創(chuàng)建虛擬細(xì)胞的努力,目前尚處于起步階段,但這一愿景已在全球?qū)W術(shù)和工業(yè)實(shí)驗(yàn)室中引起了極大興趣。
AI 虛擬細(xì)胞概述
致力于開發(fā)開放數(shù)據(jù)集和工具的非營利組織"陳-扎克伯格倡議"(CZI)計(jì)劃在未來十年投入數(shù)億美元用于創(chuàng)建虛擬細(xì)胞。開發(fā)出了 AI 蛋白質(zhì)結(jié)構(gòu)預(yù)測工具 AlphaFold 的 DeepMind 公司也在推進(jìn)一個(gè)虛擬細(xì)胞項(xiàng)目。瑞典國家生命科學(xué)實(shí)驗(yàn)室計(jì)劃在 2026 年啟動(dòng)名為"Alpha Cell"的虛擬細(xì)胞模型項(xiàng)目。此外,諾獎(jiǎng)得主 David Baker 創(chuàng)立的 Xaira Therapeutics 則在本月發(fā)布了一個(gè)涵蓋 8000000 個(gè)細(xì)胞的迄今最大規(guī)模單細(xì)胞擾動(dòng)測序數(shù)據(jù)集 X-Atlas/Orion,以支持虛擬細(xì)胞研究【2】。Arc 研究所則在上周推出了一個(gè)虛擬細(xì)胞模型--STATE,旨在預(yù)測各種干細(xì)胞、癌細(xì)胞和免疫細(xì)胞對藥物、細(xì)胞因子或基因干擾的反應(yīng)【3】。
但也有一些科學(xué)家表示,盡管開發(fā)虛擬細(xì)胞是生物學(xué)的一個(gè)重要長期目標(biāo),但目前這一熱潮存在很多炒作成分,卻鮮有具體成果,也缺乏明確的成功路徑。有科學(xué)家直言不諱:虛擬細(xì)胞主要被用作口號和融資,而且效果不錯(cuò),投資機(jī)構(gòu)正在向這一領(lǐng)域投入大量資金。
幾十年來,生物學(xué)家一直致力于利用計(jì)算機(jī)來模擬細(xì)胞行為。2012 年,J. Craig Venter 研究所的科學(xué)家們創(chuàng)建了首個(gè)完整細(xì)胞的計(jì)算模型,模擬了一個(gè)僅含 525 個(gè)基因的人類病原體--生殖支原體的細(xì)胞內(nèi)運(yùn)作機(jī)制【4】。
但這項(xiàng)研究以及其他早期的努力往往試圖真正構(gòu)建一個(gè)細(xì)胞的完整機(jī)械模型。相比之下,當(dāng)前開發(fā)虛擬細(xì)胞的努力得益于人工智能(AI)的進(jìn)步,當(dāng)輸入大量數(shù)據(jù)時(shí),AI 能夠生成復(fù)雜的數(shù)據(jù)表示,例如從大量文本中訓(xùn)練的大型語言模型。建立能從數(shù)據(jù)中學(xué)習(xí)的模型具有革命性意義。
早期的虛擬細(xì)胞主要關(guān)注一種類型的數(shù)據(jù):來自對單個(gè)細(xì)胞中所有 mRNA 分子進(jìn)行測序的實(shí)驗(yàn)數(shù)據(jù)(單細(xì)胞轉(zhuǎn)錄組測序數(shù)據(jù)),這相當(dāng)于一份基因活動(dòng)目錄以及細(xì)胞當(dāng)前狀態(tài)的快照。這些數(shù)據(jù)構(gòu)成了"圖譜"的基礎(chǔ),這些圖譜描繪了人類和其他生物體內(nèi)不同細(xì)胞類型的情況,揭示了此前未被充分認(rèn)識的多樣性。
如今,研究人員如今正在大量生成"單細(xì)胞測序"數(shù)據(jù)集,以助力其虛擬細(xì)胞的研究。例如,"陳-扎克伯格倡議"(CZI)計(jì)劃發(fā)布來自 10 億個(gè)細(xì)胞的測序數(shù)據(jù),而在 2 月,Arc 研究所發(fā)布了來自 1 億個(gè)經(jīng)數(shù)百種藥物處理的癌細(xì)胞的測序數(shù)據(jù)。這些單細(xì)胞測序數(shù)據(jù)很有吸引力,因?yàn)樗軌蛞耘c大語言模型開始獲得復(fù)雜能力時(shí)相似的規(guī)模經(jīng)濟(jì)實(shí)惠地生成--達(dá)到數(shù)百億的數(shù)據(jù)點(diǎn)。
目前,研究人員已經(jīng)開始利用這些數(shù)據(jù)開發(fā)單細(xì)胞人工智能模型。就在上周,Arc 研究所公布了其首個(gè)虛擬細(xì)胞模型--"State"。此外,Arc 該研究所還發(fā)起了一個(gè)虛擬細(xì)胞挑戰(zhàn)賽,挑戰(zhàn)研究人員利用虛擬細(xì)胞模型預(yù)測人類干細(xì)胞對基因干擾的反應(yīng)【5】。
不過,其他研究人員表示,這些虛擬細(xì)胞模型目前還不夠強(qiáng)大,預(yù)測能力也不足,無法得出適用于其訓(xùn)練數(shù)據(jù)之外的結(jié)論,用新數(shù)據(jù)集對一些虛擬模型進(jìn)行基準(zhǔn)測試時(shí),它們的表現(xiàn)很糟糕。
此外,還有許多研究人員表示,虛擬細(xì)胞需要整合其他形式的數(shù)據(jù),比如光學(xué)顯微鏡和電子顯微鏡圖像,這些圖像能夠展示細(xì)胞的不同組成部分如何相互作用,以及細(xì)胞如何隨時(shí)間變化。也就是說,我們還需要單細(xì)胞測序之外的數(shù)據(jù)。
開發(fā)虛擬細(xì)胞所面臨的挑戰(zhàn)還在于,虛擬細(xì)胞還沒有被明確定義,究竟是什么是虛擬細(xì)胞,當(dāng)前的研究人員一件尚未達(dá)成共識。
Stephen Quake 表示,自己設(shè)想的讓細(xì)胞生物學(xué)家擺脫實(shí)驗(yàn)室工作臺的愿景還需要一段時(shí)間來適應(yīng),但幸運(yùn)的是,適應(yīng)的時(shí)間還很充裕,生物學(xué)家們還沒準(zhǔn)備好迎接虛擬細(xì)胞模型,而模型也還沒有足夠成熟。
論文鏈接:
1. https://www.cell.com/cell/fulltext/S0092-8674(24)01332-1
2. https://www.biorxiv.org/content/10.1101/2025.06.11.659105v1
3. https://arcinstitute.org/manuscripts/State
4. https://www.cell.com/cell/fulltext/S0092-8674(12)00776-3
5. https://www.cell.com/cell/fulltext/S0092-8674(25)00675-0
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com