北京2022年10月12日 /美通社/ -- 2020年底,DeepMind旗下人工智能(AI)系統(tǒng)AlphaFold在蛋白質(zhì)分子結(jié)構(gòu)預(yù)測(cè)領(lǐng)域取得了史無前例的進(jìn)步。這不僅有力推動(dòng)了生命科學(xué)領(lǐng)域的發(fā)展,也愈發(fā)印證了具備掌握 "暗知識(shí)" 能力的AI能夠助力人們直接跳過在 "未知" 暗箱中摸索的過程,而直接抵達(dá) "新知" 的彼岸。
因此,也就不難理解近年來日漸成熟且炙手可熱的人工智能輔助藥物發(fā)現(xiàn) (以下稱AIDD: AI Drug Design) 為何在短短數(shù)年間就從萌芽發(fā)展到幾乎參與從藥物靶點(diǎn)發(fā)現(xiàn)到臨床試驗(yàn)等藥物研發(fā)的全流程。尤其面對(duì)新藥研發(fā)中的靶點(diǎn)篩選、化合物發(fā)現(xiàn)等存在人類認(rèn)知盲區(qū)的環(huán)節(jié),AIDD正在顯著降低對(duì)專家知識(shí)和海量數(shù)據(jù)的苛求,并有望改變新藥研發(fā) "九死一生" 的困局。
除了AI技術(shù)自身進(jìn)步之外,AIDD的快速普及也離不開"生逢其時(shí)"——成熟的云計(jì)算技術(shù)也恰到其處為AIDD提供必需的數(shù)字化基礎(chǔ)設(shè)施和能力,讓藥企得以迅速突破存儲(chǔ)、算力、機(jī)器學(xué)習(xí)模型等數(shù)字化瓶頸,使AIDD得以成為高效的常態(tài)化工具。例如,在新冠疫苗研發(fā)中,莫德納(Moderna)通過在亞馬遜云科技平臺(tái)構(gòu)建的機(jī)器學(xué)習(xí)能力,2 天內(nèi)就完成了 mRNA COVID-19 疫苗的序列,25天就發(fā)布了第一個(gè)臨床批次。由此預(yù)示著藥物研發(fā)正全面步入 "AI時(shí)代" 。
AIDD帶來藥物研發(fā)大提速
新藥研發(fā)一直是人類科研領(lǐng)域中極具風(fēng)險(xiǎn)和復(fù)雜度、且耗時(shí)最漫長(zhǎng)的技術(shù)研究領(lǐng)域之一。根據(jù)《自然》(Nature)雜志的數(shù)據(jù)顯示,一款新藥的整體成本大約是26億美元,耗時(shí)約10年,成功率卻不到十分之一。
自20世紀(jì)90年代中期,計(jì)算機(jī)輔助藥物研發(fā)(CADD: Computer Aided Drug Design)開始被使用并逐漸成為藥企的主流數(shù)字化輔助技術(shù)。但CADD的能力局限于對(duì)已有的知識(shí)和數(shù)據(jù)的篩選與優(yōu)化,其作用更多是對(duì)人力的 "替代" 而非 "突破" ,因此無法觸達(dá)人類尚未涉足的認(rèn)知盲區(qū)。
相較之下,AIDD能夠充分探索未知的分子結(jié)構(gòu)空間,生成現(xiàn)有經(jīng)驗(yàn)與數(shù)據(jù)之外的全新分子化合物結(jié)構(gòu),給藥物研發(fā)帶來了真正的顛覆性變革。通過將AI所擁有的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、圖像識(shí)別、認(rèn)知計(jì)算等能力嵌入藥物研發(fā)各環(huán)節(jié),可預(yù)測(cè)識(shí)別更為準(zhǔn)確的疾病靶點(diǎn),并基于濕實(shí)驗(yàn)及CADD模擬數(shù)據(jù)進(jìn)行新藥分子設(shè)計(jì)、化合物活性評(píng)價(jià)、毒性評(píng)價(jià)等研發(fā)過程,大幅降低了對(duì)數(shù)據(jù)量和專家知識(shí)的依賴。
AIDD最直觀的價(jià)值還在于顯著減少傳統(tǒng)藥物研發(fā)的高昂資金和時(shí)間成本,給研發(fā)效率帶來巨大飛躍。據(jù)Exscientia Company Deck數(shù)據(jù)顯示,使用AI技術(shù)可以減少約35%的新藥研發(fā)成本,研發(fā)周期也縮短到了1-2年。
云計(jì)算推進(jìn)AIDD成為常態(tài)化工具
2021年,亞馬遜云科技客戶、AI藥物研發(fā)公司英矽智能宣布了全球第一款由AI發(fā)現(xiàn)并設(shè)計(jì)的用于特發(fā)性肺纖維化治療的候選藥物已進(jìn)入臨床試驗(yàn)階段。從靶點(diǎn)發(fā)現(xiàn)到化合物驗(yàn)證,英矽智能用時(shí)不到18個(gè)月,花費(fèi)僅260萬美元,降低了約99%的新藥研發(fā)計(jì)算成本。
英矽智能的藥物發(fā)現(xiàn)引擎建立在亞馬遜云科技平臺(tái)之上,是公司產(chǎn)品組合的核心。該引擎使用數(shù)百萬個(gè)數(shù)據(jù)樣本和多種數(shù)據(jù)類型來發(fā)現(xiàn)疾病生物標(biāo)志物,確定最有希望的靶點(diǎn),并設(shè)計(jì)具有特定屬性的小分子化合物。
由于英矽智能的人工智能平臺(tái)要處理大量的實(shí)驗(yàn)和文本數(shù)據(jù),所以對(duì)于圖形處理器 (GPU) 的要求很高。英矽智能的AI工具如PandaOmics?和Chemistry42?都運(yùn)行于Amazon Elastic Compute Cloud(Amazon EC2 ),以獲得具有極具靈活性和可擴(kuò)展性的云端服務(wù)器而無需維護(hù)龐大的本地計(jì)算集群。另外,英矽智能還使用了對(duì)象存儲(chǔ)服務(wù)Amazon Simple Storage Service (Amazon S3) 存儲(chǔ)相關(guān)數(shù)據(jù),使其分布于6個(gè)國(guó)家的團(tuán)隊(duì)能夠輕松訪問所需數(shù)據(jù)并進(jìn)行跨國(guó)合作。
成熟、易用且 "AI友好" 的云平臺(tái)為各行業(yè)創(chuàng)造了邁入AI時(shí)代的 "捷徑" 。到目前為止,云上超過75%的人工智能應(yīng)用都基于亞馬遜云科技平臺(tái)開發(fā),也使亞馬遜云科技積累了豐富的人工智能和機(jī)器學(xué)習(xí)技術(shù)和成功經(jīng)驗(yàn)。對(duì)于AIDD所必需的算力、算法、數(shù)據(jù)三大數(shù)字化基礎(chǔ)及安全合規(guī)要求,亞馬遜云科技都能提供完善的服務(wù)與技術(shù)支撐:
據(jù)不完全統(tǒng)計(jì),全球已經(jīng)有近40款以上利用AI涉及的藥物管線已經(jīng)步入了臨床階段。隨著AIDD得到廣泛應(yīng)用,已有國(guó)內(nèi)外的眾多企業(yè)選擇亞馬遜云科技作為部署AIDD的云計(jì)算平臺(tái)。而亞馬遜云科技不僅能提供AIDD所需的云上基礎(chǔ)設(shè)施,還可直接助力AI工具的開發(fā)和使用,或者使用亞馬遜云科技多達(dá)92種生命科學(xué)公開數(shù)據(jù)集快速進(jìn)入模型訓(xùn)練。
近年來,基于亞馬遜云科技,阿斯利康開發(fā)了由機(jī)器學(xué)習(xí)驅(qū)動(dòng)的病理圖像識(shí)別檢測(cè)模型,用于替代以往在候選藥物研發(fā)時(shí)以人工進(jìn)行樣本編目的方式。借助Amazon SageMaker Ground Truth,阿斯利康能夠快速注釋、收集和分類訓(xùn)練樣本,并形成可用于模型訓(xùn)練的數(shù)據(jù)集,而所用的時(shí)間僅為之前的50%。
除了節(jié)省時(shí)間和人力成本,使用數(shù)據(jù)集訓(xùn)練的模型還幫助研發(fā)人員獲得更準(zhǔn)確的分析結(jié)果。在雙方開展的試點(diǎn)中,阿斯利康使用2000個(gè)樣本來分析造成糖尿病損傷的關(guān)鍵結(jié)構(gòu),準(zhǔn)確率達(dá)到95%,使科學(xué)家能夠快了解藥物的安全性和有效性,加速了新藥研發(fā)和上市的進(jìn)程。
釋放AIDD更大潛力使藥物研發(fā)全面步入"AI時(shí)代"
"開放"是AI技術(shù)得以發(fā)展與應(yīng)用的關(guān)鍵要素。要使AIDD在未來得到更充分的開發(fā)與探索,勢(shì)必要讓其走出僅賦能單個(gè)企業(yè)的孤島。著眼未來,借助公有云對(duì)數(shù)據(jù)安全的保護(hù)及合規(guī)分享機(jī)制,制藥企業(yè)之間將有機(jī)會(huì)在確保核心數(shù)據(jù)安全的前提下,實(shí)現(xiàn)跨企業(yè)的數(shù)據(jù)合作,以更開放的生態(tài)不斷提升AIDD的能力、應(yīng)用范圍和影響力。
早在2019年,亞馬遜云科技就與全球十大制藥公司共同構(gòu)建了用于藥物發(fā)現(xiàn)的聯(lián)邦學(xué)習(xí)平臺(tái)(Federated machine learning for drug discovery on Amazon Web Services) MELLODDY,讓藥企在安全、合規(guī)、確保數(shù)據(jù)隱私的環(huán)境下,進(jìn)行多方合作,加速整個(gè)行業(yè)的科研發(fā)現(xiàn)進(jìn)程。當(dāng)前,MELLODDY 平臺(tái)以前所未有的規(guī)模運(yùn)行在亞馬遜云科技平臺(tái)上,在數(shù)十億個(gè)實(shí)驗(yàn)數(shù)據(jù)點(diǎn)上采用聯(lián)邦學(xué)習(xí)方式訓(xùn)練模型,分析了超過 2000 萬個(gè)化學(xué)分子結(jié)構(gòu)及理化性質(zhì)。而且MELLODDY在企業(yè)無需共享專有數(shù)據(jù)和模型的基礎(chǔ)上即可開展機(jī)器學(xué)習(xí)協(xié)作,合作訓(xùn)練藥物發(fā)現(xiàn)模型。這一項(xiàng)目成功證明了制藥企業(yè)可通過云計(jì)算進(jìn)行合作來加速發(fā)現(xiàn)新藥物的可行性。
中國(guó)的藥物研發(fā)領(lǐng)域的眾多企業(yè)在迎來政策激勵(lì)的同時(shí),也開始發(fā)掘AIDD背后的商業(yè)潛力。在輔助臨床前試驗(yàn)階段之外,AI技術(shù)尚存在更多可發(fā)掘的應(yīng)用潛力,如AI與物聯(lián)網(wǎng)、數(shù)據(jù)湖倉(cāng)等技術(shù)融合,可促進(jìn)數(shù)字化實(shí)驗(yàn)、多中心臨床、智能制造及真實(shí)世界分析等藥物的全流程改進(jìn)。越來越多的企業(yè)也逐步開始了AIDD的實(shí)質(zhì)性應(yīng)用,并助推國(guó)內(nèi)藥物研發(fā)進(jìn)入新的 "高產(chǎn)" 階段。
據(jù)Data Bridge Market Research分析,亞太地區(qū)藥物發(fā)現(xiàn)市場(chǎng)的AI價(jià)值復(fù)合年增長(zhǎng)率將在2022至2029 年期間達(dá)到50.9%,且預(yù)計(jì)中國(guó)將成為該領(lǐng)域主導(dǎo)國(guó)家。隨著云計(jì)算不斷為AIDD等AI應(yīng)用落地鋪平道路,國(guó)內(nèi)制藥企業(yè)將有望完成研發(fā)能力躍遷,讓上述預(yù)測(cè)成為最終事實(shí)。