在人類基因組中,基因的轉(zhuǎn)錄始于啟動子(Promoter),這一核心序列元件整合來自基因組近端和遠(yuǎn)端區(qū)域的信息,以精確調(diào)控基因表達(dá)。啟動子中的破壞性突變會導(dǎo)致基因表達(dá)發(fā)生重大改變,但由于難以區(qū)分有害突變和良性突變,其對人類健康和疾病的影響,我們目前仍知之甚少。
在大規(guī)模功能基因組學(xué)數(shù)據(jù)集上訓(xùn)練的人工智能(AI)模型有可能學(xué)習(xí)轉(zhuǎn)錄和表觀遺傳程序背后的調(diào)控"語法"。將遺傳突變與功能后果相聯(lián)系的適當(dāng)訓(xùn)練數(shù)據(jù)集對于實(shí)現(xiàn)準(zhǔn)確的突變效應(yīng)預(yù)測至關(guān)重要。
近日,因美納(Illumina)公司的研究人員在國際頂尖學(xué)術(shù)期刊 Science 上發(fā)表了題為:Predicting expression-altering promoter mutations with deep learning 的研究論文。
該研究開發(fā)了一款名為 PromoterAI 的人工智能(AI)模型,其能夠準(zhǔn)確識別會擾亂基因表達(dá)的非編碼的啟動子突變,結(jié)果顯示,那些預(yù)測會改變基因表達(dá)的啟動子突變在數(shù)千名個(gè)體的 RNA 和蛋白質(zhì)水平上產(chǎn)生了異常表達(dá),并且這些突變在人類群體中經(jīng)歷了強(qiáng)烈的負(fù)選擇。研究團(tuán)隊(duì)觀察到,罕見病患者的臨床相關(guān)基因中此類突變顯著富集,并通過報(bào)告基因?qū)嶒?yàn)驗(yàn)證了其功能影響。研究團(tuán)隊(duì)進(jìn)一步估計(jì),啟動子突變占罕見病相關(guān)遺傳負(fù)擔(dān)的 6%。
實(shí)際上,目前僅有少數(shù)罕見遺傳病患者通過外顯子測序得到確診,這表明其他未被識別的致病突變可能存在于非編碼序列(包括啟動子)中。
PromoterAI 是一種通過評估啟動子區(qū)域基因組序列來預(yù)測啟動子突變對基因表達(dá)影響的深度神經(jīng)網(wǎng)絡(luò)。研究團(tuán)隊(duì)首先以單核苷酸分辨率訓(xùn)練該模型,使其能夠預(yù)測轉(zhuǎn)錄起始位點(diǎn)周圍的組蛋白修飾、DNA 可及性、轉(zhuǎn)錄因子結(jié)合和鏈特異性基因表達(dá)。隨后,研究團(tuán)隊(duì)基于攜帶配對基因組與 RNA 測序數(shù)據(jù)的群體樣本,構(gòu)建了包含數(shù)千個(gè)與跨組織異常基因表達(dá)相關(guān)的罕見啟動子突變的訓(xùn)練數(shù)據(jù)集,同時(shí)控制了順式(cis)與反式(trans)混雜變量的影響。利用這些異常突變,研究團(tuán)隊(duì)通過旨在實(shí)現(xiàn)跨未知基因及數(shù)據(jù)集的泛化能力的框架對 PromoterAI 進(jìn)行了微調(diào)。
研究團(tuán)隊(duì)通過基因表達(dá)、蛋白質(zhì)豐度、數(shù)量性狀位點(diǎn)和報(bào)告基因?qū)嶒?yàn)等多維度基準(zhǔn)測試對 PromoterAI 的預(yù)測效果進(jìn)行了全面驗(yàn)證。群體等位基因頻率譜分析顯示,預(yù)測具有表達(dá)調(diào)控作用的啟動子突變在高等位基因頻率區(qū)域呈現(xiàn)顯著缺失,這反映了自然選擇對有害突變的清除作用?;谟飿颖編欤║K biobank)數(shù)萬個(gè)體數(shù)據(jù)分析,研究團(tuán)隊(duì)發(fā)現(xiàn),預(yù)測的突變效應(yīng)與蛋白質(zhì)豐度及數(shù)量性狀測量值存在強(qiáng)烈關(guān)聯(lián)。最后,研究團(tuán)隊(duì)將該模型應(yīng)用于 Genomics England 隊(duì)列中未確診的罕見病患者,發(fā)現(xiàn) PromoterAI 預(yù)測的會導(dǎo)致表達(dá)不足的啟動子突變在患者表型相關(guān)孟德爾疾病基因(尤其是單倍體不足對應(yīng)的顯性功能缺失基因)的啟動子區(qū)域呈現(xiàn)特異性富集。
PromoterAI 可捕捉啟動子突變的功能影響。(左圖)該模型最初通過預(yù)測轉(zhuǎn)錄起始位點(diǎn)附近的組蛋白修飾、染色質(zhì)可及性、轉(zhuǎn)錄因子結(jié)合及基因表達(dá)進(jìn)行訓(xùn)練,最終通過篩選與異?;虮磉_(dá)相關(guān)的罕見啟動子突變進(jìn)行微調(diào)。(右圖)預(yù)測的突變效應(yīng)與群體隊(duì)列數(shù)量性狀具有顯著相關(guān)性,在罕見遺傳病隊(duì)列中貢獻(xiàn)了 6% 的病例診斷率。SpliceAI(剪接預(yù)測模型)和PrimateAI-3D(進(jìn)化保守性分析模型)是另兩種預(yù)測變異效應(yīng)的深度學(xué)習(xí)方法。
PromoterAI 通過精準(zhǔn)檢測影響基因表達(dá)的啟動子突變,填補(bǔ)了基因組解讀領(lǐng)域的關(guān)鍵空白。該模型有效性的核心在于采用具有已知表達(dá)效應(yīng)的遺傳突變進(jìn)行微調(diào)的優(yōu)化過程。在當(dāng)前臨床基因組分析主要聚焦編碼區(qū)基因突變的背景下,將啟動子突變納入解讀體系,可顯著提升個(gè)性化基因組測序的臨床診斷效果。
論文鏈接:
https://www.science.org/doi/10.1126/science.ads7373
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com