深圳2020年7月13日 /美通社/ -- 單機解碼全基因組,從需要幾天到1小時,再到5分鐘,中國生物醫(yī)學(xué)原創(chuàng)技術(shù)究竟有多強?2020年6月,深圳承啟生物科技有限公司(以下簡稱“承啟生物”)利用自主研發(fā)的云平臺Chi-Cloud及高精度算法FANSe3,實現(xiàn)單機5分鐘分析完成一個人全基因組數(shù)據(jù)集,再度刷新世界紀(jì)錄。
承啟生物創(chuàng)始人、首席科學(xué)家張弓教授表示,“承啟生物的解決方案Chi-Cloud+FANSe3在攻破了無數(shù)個難題后,成功提升基因檢測分析速度。這一突破最值得關(guān)注的是全自主研發(fā)的FANSe算法,實現(xiàn)精準(zhǔn)度之上的速度飛躍;此外,這項中國原創(chuàng)技術(shù)不依賴專用加速芯片,讓基因測序不再被國外供應(yīng)商‘扼住咽喉’,大幅降低成本,為精準(zhǔn)醫(yī)療、普惠醫(yī)療貢獻力量。”
全自主技術(shù) 基因測序不再被扼住咽喉
核心技術(shù)是國家與企業(yè)的安身立命之本,只有實現(xiàn)核心技術(shù)自主才能不被扼住命運的咽喉。承啟生物歷經(jīng)6年自主研發(fā)的FANSe算法已進入第3代,張弓教授透露,這一算法不依賴專用加速硬件,從根本上避免芯片禁運風(fēng)險,這項中國高端醫(yī)學(xué)技術(shù)將不再受制于人。
當(dāng)前全球基因組測序大部分使用的基礎(chǔ)算法為國外的BWA、Bowtie等系列算法,單機運行效率并不高。為提高單機運算速度,常見方案是采用GPU、FPGA等專用芯片進行加速。但受國內(nèi)芯片技術(shù)局限,目前國內(nèi)僅有自主CPU,而高性能通用計算GPU、FPGA等芯片依然被國外壟斷。承啟的FANSe3算法只使用CPU進行計算,不依賴專用加速芯片,可做到在國產(chǎn)硬件上高效運行。此外,單機5分鐘分析全基因組的高效能,意味著在對數(shù)據(jù)保密性要求的特殊領(lǐng)域(如軍事、公共安全、特定的醫(yī)療場景等),可直接采用單機分析方式(Chi-Cloud小云模式),無需連接互聯(lián)網(wǎng)。算法針對國產(chǎn)測序儀進行特別適配和優(yōu)化,保障精準(zhǔn)醫(yī)學(xué)的國家安全。
為應(yīng)對國產(chǎn)CPU性能與國際頂尖水平的現(xiàn)實差距問題,F(xiàn)ANSe3和承啟云平臺架構(gòu)在設(shè)計之初便支持大規(guī)模分布式運算和自適應(yīng)任務(wù)調(diào)度,擴展性強,可利用多個CPU共同運算一個任務(wù)?!皢螜C的性能弱了怎么辦?可以把2臺、3臺、4臺甚至100臺機器捆起來一起用,彌補單個CPU性能的不足,達到同樣甚至更好的使用體驗?!睆埞淌谡f。
“單機5分鐘”推動精準(zhǔn)醫(yī)學(xué)“更快、更便宜”
由于核心技術(shù)完全自主,承啟生物團隊可以對算法不斷改進,使FANSe3代算法在運算速度上實現(xiàn)遠超國外算法的飛躍?!皢螜C5分鐘”的意義不僅限于提升時間和效率,更在于助推精準(zhǔn)醫(yī)學(xué)普及。
目前先進的測序儀已能在一天內(nèi)完成測序?qū)嶒?,但?shù)據(jù)分析用單機通常需要幾十個小時才能完成,但對許多臨床急性病癥,時間就是生命。使用國外算法,各大云服務(wù)提供商在使用幾十上百臺服務(wù)器的情況下,僅能將分析時間壓縮至半小時到一小時,而使用FPGA等專用加速芯片,也只能實現(xiàn)1-2小時的分析時間,而這些都需要巨額的硬件投入和專業(yè)維護,能耗也居高不下。
本次承啟生物實現(xiàn)的單機5分鐘分析突破,可讓大型測序中心擺脫超算集群和專業(yè)人員維護需求;硬件購置費用大大降低,能耗也大為降低,綠色環(huán)保。
單機5分鐘的速度,網(wǎng)絡(luò)傳輸是整體分析中的瓶頸。一個人全基因組測序數(shù)據(jù)文件可高達240GB以上,以千兆網(wǎng)的速度都需要傳輸40多分鐘。為解決這一問題,承啟為Chi-Cloud開發(fā)了獨有的壓縮算法,達到了1:10以上甚至1:20的壓縮率,縮短原本漫長的傳輸時間,多節(jié)點間的任務(wù)調(diào)配也更得心應(yīng)手;與FANSe3算法深度配合,無需解壓即可直接運算。
使用高速的網(wǎng)絡(luò)接入,將數(shù)據(jù)傳輸至承啟生物的服務(wù)器上,測序中心甚至不需購買和維護服務(wù)器,基因組測序的分析成本降至幾乎可以忽略不計的程度。
所有這些,都讓全基因組測序分析“更快”。以超高速的運算助力重癥患者“與死神賽跑”,盡力避免治療“遲了一步”的遺憾,為醫(yī)生、患者爭取更多時間。
FANSe3算法+全鏈條穩(wěn)健 實現(xiàn)“更精準(zhǔn)”
與速度同樣重要的是算法的準(zhǔn)確性,張弓教授強調(diào),“準(zhǔn)確性是所有優(yōu)勢的前提。FANSe3是全球罕見的準(zhǔn)確率有數(shù)學(xué)證明的算法,錯誤率已可穩(wěn)定在十億分之一以下。經(jīng)大量實驗表明,F(xiàn)ANSe系列算法在基因組突變分析、轉(zhuǎn)錄組表達分析等應(yīng)用上,準(zhǔn)確度幾乎為100%,秒殺國外基于BWA、Bowtie等算法方案,并在醫(yī)學(xué)科研和臨床應(yīng)用中分析超過50萬例樣本?!?/p>
2014年,F(xiàn)ANSe算法成為國際人類蛋白質(zhì)組計劃核心支柱的首選分析算法,為全面解析人類蛋白質(zhì)組做出了關(guān)鍵貢獻。2017年9月,在國際人類蛋白質(zhì)組計劃世界大會上,以張弓教授等為代表的廣東科學(xué)家團隊利用FANSe系列算法,發(fā)現(xiàn)數(shù)千個以往被認為不可能存在的人類“新蛋白質(zhì)”。最近,承啟云平臺在中國自主研發(fā)的基因組測序標(biāo)準(zhǔn)數(shù)據(jù)集的評測上,突變鑒定準(zhǔn)確性在全部幾十個標(biāo)準(zhǔn)數(shù)據(jù)集上均明顯高于國外主流算法。
算法足夠準(zhǔn)確了,但另一個無法回避的事實是要實現(xiàn)基因測序的準(zhǔn)確性,算法只是一方面,另一方面,從采樣、運輸、前處理到測序的實驗全過程必須萬無一失,承啟生物稱之為“全鏈條穩(wěn)健”。
張弓教授對“全鏈條穩(wěn)健”進行解讀:“為什么有些分析結(jié)果容易出問題?除部分算法不準(zhǔn)確的因素,樣本本身在采集、保存和運輸過程中發(fā)生改變,也會導(dǎo)致誤差出現(xiàn)。而分散、小型化測序由于高度依賴專業(yè)人員,在現(xiàn)有的經(jīng)濟條件下暫時無法大量推廣,也就無法避免樣品保存和長途運輸,無形中增加精準(zhǔn)醫(yī)療普及的難度?!闭驗閲鴥?nèi)基因測序受限于各種技術(shù)的不穩(wěn)定性,市場仍未實現(xiàn)真正發(fā)展。
而承啟生物的“穩(wěn)”,來源于對整個實驗過程細節(jié)的精益求精和自主研發(fā)。承啟生物通過自有的保存運輸技術(shù)方案,在不使用干冰、冰袋的情況下,DNA和RNA樣品可以經(jīng)受住-55~45°C的溫差波動三天而保持完好。在樣本前處理和建庫階段,承啟研發(fā)的實驗方案與“標(biāo)準(zhǔn)實驗方案”不同,即便樣本發(fā)生降解,也能通過實驗方法和算法容錯等方法,實現(xiàn)近乎100%的準(zhǔn)確性。原創(chuàng)技術(shù)帶來的穩(wěn)健性擴寬了基因檢測的應(yīng)用場景,讓基因檢測不再依賴大量專業(yè)人員,門檻大大降低。穩(wěn)健的體系也減少了因中間步驟造成的重復(fù)測定,進一步壓縮了時間、降低成本。
“快、穩(wěn)、準(zhǔn)”制定標(biāo)準(zhǔn),助力精準(zhǔn)醫(yī)療大爆發(fā)
當(dāng)未來全基因組測序成為常規(guī)檢驗,全國每天處理的樣本將達到海量?;诔袉⑸镒灾骷夹g(shù)的超精準(zhǔn)和超高速,可解決海量樣本分析中的瓶頸與痛點,讓基因測以低成本實現(xiàn)精準(zhǔn)醫(yī)學(xué)的落地,迎來廣泛應(yīng)用場景,為行業(yè)發(fā)展提供有力支撐。
當(dāng)前,承啟生物的自主化“快、穩(wěn)、準(zhǔn)”的技術(shù)體系,被認定為國家重點計劃《醫(yī)學(xué)生命主學(xué)觀質(zhì)量控制關(guān)鍵技術(shù)與示范應(yīng)用》核酸組學(xué)部分的基礎(chǔ),也將成為今后國家相關(guān)質(zhì)控標(biāo)準(zhǔn)的重要依據(jù)。標(biāo)準(zhǔn)的建立,將規(guī)范整個行業(yè),助力精準(zhǔn)醫(yī)學(xué)應(yīng)用的行業(yè)爆發(fā),也為承啟生物開啟更廣闊的發(fā)展前景。