3月份兩起臨床研究結(jié)果的失敗引發(fā)了行業(yè)內(nèi)部對于臨床研究設計的關注。
3月12日,Acadia Pharmaceuticals 宣布他們的產(chǎn)品Nuplazid(pimavanserin)在454名患有精神分裂癥陰性癥狀的成年患者參加的III期ADVANCE-2研究中失敗。Nuplazid是一種非典型抗精神病藥,用于治療與帕金森病相關的精神病引起的幻覺和妄想,它是該適應癥的唯一獲批藥物,于2016年4月29日獲得FDA的監(jiān)管審批。
圖片來源:Nuplazid.com
Acadia 一直試圖將 Nuplazid 的標簽擴展到更廣泛的失智相關的精神病領域,這條路線在2021年被證明行不通。Acadia隨后將希望傾注在了ADVANCE-2 III期研究,針對精神分裂癥,但也無果而終。兩次標簽擴展的努力如今都不幸以失敗的結(jié)局慘淡落幕。
其實ADVANCE-2的失敗早在Nuplazid的II 期 ADVANCE-1 研究中就已經(jīng)初現(xiàn)端倪。2019 年 11 月下旬,Acadia 宣布在對 403 名精神分裂癥陰性癥狀患者進行的 II期ADVANCE-1 研究中,Nuplazid 取得了"陽性頂線結(jié)果"。其主要終點為 26 周后陰性癥狀評估 16 (NSA-16) 總分相對于基線的變化。ADVANCE-1 研究結(jié)果的 p 值為 0.043,效應大?。‥ffect Size)為 0.21。
此處涉及兩個臨床研究非常關鍵的表征結(jié)果:p值和效應大?。╡ffect size)。這兩個參數(shù)互為補充,是FDA檢查臨床結(jié)果的重要參考。P值表征的是臨床研究的兩個隊列(例如安慰劑和研究組)之間是否存在統(tǒng)計意義上的顯著區(qū)別。這通常是研究人員最為看重的結(jié)果之一。如果p值表明研究組同安慰劑組之間存在著統(tǒng)計意義上的顯著區(qū)別,那么該研究就有可能被視為成功(當然存在例外情況,例如FDA前不久拒絕的默沙東慢性咳嗽藥物Gefapixant),如果p值顯示兩個隊列不存在統(tǒng)計意義的顯著區(qū)別的話,那么這個藥物的前景就堪憂了(當然也存在例外,例如Sarepta的杜氏肌營養(yǎng)不良癥基因療法Elevidys)。
人們有一種普遍的誤區(qū),認為p值低于設定的顯著性水平(significance level,α,通常設定為0.05)就代表測試藥物同安慰劑之間存在顯著差異。但前文提及,p值小于0.05但被FDA拒絕批準的申請是存在的。這就在"統(tǒng)計顯著"的基礎上引入了"臨床意義"的表征。正如FDA在拒絕批準默沙東慢性咳嗽藥物Gefapixant的評估報告中表述的那樣, "統(tǒng)計顯著性本身并不表明檢測到的效果是否對應于有臨床意義的治療效果。 因此,F(xiàn)DA專家委員會面臨的問題不是具有統(tǒng)計學意義,而是這些微小的治療效果是否具有臨床意義。"
由此可知,除了p值之外,F(xiàn)DA同樣關注臨床意義。臨床意義背后的是這個"真實世界"的"實際顯著性"(相對于p值表征的統(tǒng)計顯著性),可以通過"效應大小"(Effect Size)這個參數(shù)表征。
統(tǒng)計顯著性本身可能會產(chǎn)生誤導,因為它受到樣本量的影響。增加樣本量理論上更有可能將沒有顯著性的結(jié)果"無中生有"地變身為有統(tǒng)計顯著性,但在現(xiàn)實世界中的效應大小卻仍然很低。
相反,效應大小與樣本大小無關,僅使用數(shù)據(jù)來進行計算。這就是為什么有必要在研究報告中給出效應大小的結(jié)果,表明研究的實際意義。效應大小有不同的計算公式,對應的結(jié)果包括Cohen's d和Pearson's r等不同表征結(jié)果。
那么看一下Nuplazid在其II期研究ADVANCE-1和 III期研究ADVANCE-2的p值和效應大小的數(shù)值:
• ADVANCE-1(II期):p值=0.043;效應大?。–ohen's d)= 0.21
• ADVANCE-2(III期):p值=0.48;效應大?。–ohen's d)= 0.07
從結(jié)果對比,我們就能理解前文提到的,III期試驗失敗,實際上在II期結(jié)果中就已經(jīng)初現(xiàn)端倪的說法。Nuplazid的II期結(jié)果雖然在p值上勉強通過,但其效應大小屬于微小的范疇。也就是說,雖然具有統(tǒng)計顯著性,表明試驗隊列與安慰劑隊列存在統(tǒng)計顯著區(qū)別,但實際上的效應大小較低。雖然FDA允許Acadia將Nuplazid的研究推進到III期,但這個項目的命運在此時就已經(jīng)顯得有些"氣若游絲"前景不妙了。
然而許多投資者眼中只有小于 0.05 的 p 值,因此他們就會覺得這個II期研究獲得成功。 然而統(tǒng)計顯著與現(xiàn)實顯著之間并不能百分之百地畫上等號,甚至在很多時候兩個結(jié)果是相悖逆的。在大型研究中,即使很小的臨床效應(實際顯著性)也可能導致活性組和安慰劑組之間的 p 值小于 0.05,這就是前文說到的,當不斷增加統(tǒng)計的樣品數(shù)量時,統(tǒng)計不顯著可能會被"裹挾"進入統(tǒng)計顯著范圍,也就是p值小于0.05。盡管 ADVANCE-1 不是一項非常大型的研究,但接近 0.05 的 p 值仍然應該敲響警鐘。其次,絕 對效應大小(不同隊列平均值之間的原始差異)對于生存時間這樣的臨床終點可能很有指導作用,但對于像NSA-16這樣的打分體系獲得的臨床結(jié)果,其評判效果就要大打折扣了,這也是為什么FDA在評審ALS,DMD這樣的依靠這些打分系統(tǒng)獲得的臨床終點時,對于p值的使用非常謹慎,同時也非常關注真實的臨床意義。
ADVANCE-1的效應大小,20 mg隊列為0.21;34 mg稍大,但也只有0.34,勉強能夠擠進中等有效范疇。這里的Cohen's d表征的效應大小,是通過兩個組別(比如20 mg組和安慰劑組)的平均值的差異,除以安慰劑組的標準偏差得到的數(shù)值。通常來說,0.2為低,0.5為中等,0.8以上為大,處于閾值之間的數(shù)值可以視為兩個標準之間的狀態(tài)。ADVANCE-1實際上得到的一個統(tǒng)計顯著,但實際不顯著的臨床結(jié)果。盡管獲得FDA的批準進入III期階段,但前景蒙塵。
臨床III期規(guī)模通常要顯著大于II期,因為在更大、更多樣化的患者隊列中存在更高的現(xiàn)實世界變異性,F(xiàn)DA需要看到這一方面的效果。因此ADVANCE-2 的III期研究中有多達 227 名患者接受了 34mg 劑量的治療,而 ADVANCE-1 研究中有只 107 名患者接受了 34mg 劑量,實際的結(jié)果更是對應了之前的擔憂:II期成功III期可能失敗。III期結(jié)果不僅p值不具備統(tǒng)計顯著性(顯然樣本數(shù)量的增加并沒有幫助p值降低),而且效應大小也顯示了這款藥物在實際療效上與安慰劑幾乎無異。
與Nuplazid類似,Amylyx Pharmaceuticals也宣布了他們的Relyvrio(苯丁酸鈉和牛磺二醇)在 664 名肌萎縮側(cè)索硬化癥 (ALS) 患者中進行的驗證性 III 期 PHOENIX 研究失敗。不同的是,Relyvrio之前已經(jīng)獲得了FDA的加速批準,其失敗的III期研究實際上是上市后驗證性研究的一部分。
圖片來源:drugs.com
Relyvrio與Nuplazid的另一個"雷同之處",在于它的137名患者參加的II期研究CENTAUR也"明顯成功"。在CENTAUR試驗中,137名患者中的89名被隨即分配到了Relyvrio組,而III期的PHOENIX研究中,Relyvrio組的患者人數(shù)大約為400名。
同Nuplazid的失敗征兆一樣,Relyvrio的II期研究CENTAUR同樣顯現(xiàn)出了令人不安的跡象 。FDA 的第一個顧問小組于 2022 年 3 月以 6 比 4 的投票拒絕批準該藥物,而第二個小組在六個月后卻改弦更張,投票支持加速批準,但仍然對 Relyvrio 的功效保留了懷疑。據(jù)報道,有兩個因素影響了第二個顧問小組風向調(diào)轉(zhuǎn)的決定。第一是 Amylyx 承諾。他們表示,如果 PHOENIX III期研究失敗,他們將主動撤回 Relyvrio。第二個因素是一份有 5 萬人簽名的請愿書。患者權益倡導者的呼吁顯然對FDA的決定起到了一定作用。ALS(漸凍癥) 是一種罕見的、破壞性的進行性疾病,影響運動神經(jīng)元功能,通常在癥狀出現(xiàn)后兩到三年內(nèi)致命。美國只有約 3萬名 ALS 患者,但患者權益倡導者最終卻搞到了一張五萬人簽名的請愿書。
Relyvrio 的II 期 CENTAUR 研究使用ALSFRS-R評分系統(tǒng)作為對主要終點的評判標準,獲得了0.03的p值,效應大小約為0.4,和Nuplazid的II期臨床結(jié)果有些類似。但考慮到基于小樣本的統(tǒng)計數(shù)據(jù),這樣的結(jié)果并不能讓人完全心安。事實也驗證了人們的擔憂,在規(guī)模大得多的 PHOENIX III期研究中,所有主要和次要終點均未達到。
總結(jié)
II期成功III失敗的案例其實并不少見,雖然II期和III期的研究目的有一定的重疊性,但樣本數(shù)量完全不一樣,甚至有時候臨床終點也會發(fā)生改變。一項針對2000至2015年的研究表明,3期資產(chǎn)最終獲批的比例為59.0%。也就是是說,每10款成功從II期進階到III期的藥物候選物,就有超過4款在III 期遭遇失敗。這個數(shù)據(jù)在腫瘤學資產(chǎn)中表現(xiàn)得更為突出,其總體成功概率(從I期到獲批)僅為3.4%,遠遠低于疫苗得33.4%和整體藥物的13.8%。
在II期 試驗中,可能由于樣本量不足或者選取的患者群體不夠代表性,導致結(jié)果出現(xiàn)偏差。觀察到的效應可能是由于偶然性或者局部的效應,而不是真正的藥物療效。這可能會掩蓋藥物的真實效果,使得在更大規(guī)模的 III期試驗中無法復現(xiàn) II期的結(jié)果。在III期試驗中,由于涉及更多的患者和更廣泛的人群,這種偶然性或局部效應可能會被更全面地檢測到,導致結(jié)果不符合預期。
在分析臨床結(jié)果的過程中,不應該將試驗成敗的結(jié)果完全系于p值一項指標。FDA在監(jiān)管過程中非??粗嘏R床意義,因此對于表征實際顯著性的效應大小同樣倚重。在II期研究中遇見p值顯著但效應大小混沌不清的情況,應該認真分析數(shù)據(jù),在III期研究中規(guī)劃好試驗設計、數(shù)據(jù)分析方法以及終點選定等方面的工作,尤其是在確定研究規(guī)模上更應該將II期結(jié)果的效應大小考慮進去。
Ref.
Why Do Clinical Trials Fail? Allucent. Retrieved on 29. 02. 2024.
Smith, A. Stock Watch: Acadia And Amylyx Trial Failures Were No Shock. Scrip. 26. 03. 2024.
Grogan, K. Acadia's Nuplazid Expansion Bid Bites The Dust. Scrip. 12. 03. 2024.
Smith, A. Stock Watch: The Two Sides Of A Complete Response Letter. Scrip. 12. 04. 2021.
Power Analysis, Statistical Significance, & Effect Size. Meera. Retrieved on 26. 03. 2024.
Efficacy and Safety of Pimavanserin as Adjunctive Treatment for the Negative Symptoms of Schizophrenia (ADVANCE-2). Clinicaltrials.gov. Retrieved on 26. 03. 2024.
Trial of Sodium Phenylbutyrate-Taurursodiol for Amyotrophic Lateral Sclerosis. N Engl J Med 2020; 383:919-930. DOI: 10.1056/NEJMoa1916945
合作咨詢
肖女士
021-33392297
Kelly.Xiao@imsinoexpo.com