北京2022年6月16日 /美通社/ --百萬獵人兵臨城下,向魔法護(hù)盾發(fā)起猛烈沖擊,卻無法將擁有99級神力的護(hù)盾撼動分毫。
這是科幻電影《頭號玩家》里的一幕。電影里,不僅"綠洲"被視為元宇宙未來理想形態(tài),"魔法護(hù)盾"也迅速跨界出圈,在企業(yè)數(shù)據(jù)管理領(lǐng)域引發(fā)關(guān)注。這是因為隨著數(shù)字經(jīng)濟(jì)快速發(fā)展,數(shù)據(jù)要素在受到企業(yè)重視的同時,全球超80%的IT決策者認(rèn)為現(xiàn)有數(shù)據(jù)保護(hù)方案無法滿足未來業(yè)務(wù)挑戰(zhàn),保護(hù)好數(shù)據(jù)資產(chǎn)成為企業(yè)的當(dāng)務(wù)之急。
日前,在由存儲產(chǎn)業(yè)技術(shù)創(chuàng)新聯(lián)盟主辦的"元宇宙存儲研究與實踐"開放計算技術(shù)沙龍上,來自中科大、華中大、鄭州大學(xué)以及浪潮存儲的"產(chǎn)學(xué)研用"各界專家匯聚一堂,在關(guān)注元宇宙存儲發(fā)展的同時,還共同就糾刪碼優(yōu)化、細(xì)粒度感知等數(shù)據(jù)保護(hù)話題展開討論。本次沙龍是場景共同體戰(zhàn)略的承襲和實踐,浪潮信息存儲產(chǎn)品線總經(jīng)理李輝曾提出,面向?qū)映霾桓F的新應(yīng)用、新場景,攜手產(chǎn)業(yè)鏈伙伴推進(jìn)"平臺+生態(tài)"戰(zhàn)略,以六種模式加速企業(yè)數(shù)字轉(zhuǎn)型。
內(nèi)容概要:
數(shù)據(jù)保護(hù) 懸在頭頂?shù)倪_(dá)摩克里斯之劍
數(shù)字虛擬人需要收集的高達(dá)百倍甚至千倍的數(shù)據(jù)、VR頭顯從4K升級到視網(wǎng)膜級需提升10倍數(shù)據(jù)傳輸量、飛行模擬器采集的數(shù)據(jù)量超2PB。
以元宇宙為代表的新應(yīng)用帶來數(shù)據(jù)規(guī)模十倍、百倍激增,快速增長的多模態(tài)數(shù)據(jù)增加了企業(yè)數(shù)據(jù)保護(hù)的難度。數(shù)據(jù)顯示,企業(yè)現(xiàn)在管理的數(shù)據(jù)量是五年前的十倍以上,全球82%、中國88%的IT決策者擔(dān)心現(xiàn)有數(shù)據(jù)保護(hù)方案無法滿足未來業(yè)務(wù)挑戰(zhàn)。
這些擔(dān)憂源自企業(yè)的現(xiàn)實困境,根據(jù)對全球1000名決策者的調(diào)研,全球30%的受訪者在過去一年中經(jīng)歷過數(shù)據(jù)丟失,45%遭遇過計劃外的系統(tǒng)停機(jī)。另據(jù)IDC統(tǒng)計,在過去12個月,全球超過三分之一的組織遭遇過勒索軟件攻擊或入侵,導(dǎo)致系統(tǒng)或數(shù)據(jù)無法訪問。數(shù)據(jù)保護(hù),已然成為擺在企業(yè)數(shù)字化轉(zhuǎn)型面前的一大挑戰(zhàn)。本次沙龍,中國科學(xué)技術(shù)大學(xué)許胤龍教授以及浪潮存儲技術(shù)專家共同給出了答案。
數(shù)據(jù)容錯 業(yè)界兩種技術(shù)流派之爭
"數(shù)據(jù)容錯,業(yè)界通常有兩種辦法,一種是多副本,另一種是糾刪碼",許胤龍教授表示。多副本訪問性能高、故障修復(fù)快,但存儲開銷比較大(燒錢、占地),令企業(yè)直呼吃不消;糾刪碼開銷小(花小錢、辦大事),一般存儲空間比RAID 1鏡像小,在數(shù)據(jù)爆炸式增長的趨勢下更受市場歡迎,企業(yè)用腳投票紛紛選擇了糾刪碼。
時下人氣攀升的糾刪碼,究竟是什么呢? 所謂糾刪碼(Erasure Coding),是一種數(shù)據(jù)保護(hù)方法,它將數(shù)據(jù)分割成片段,把冗余數(shù)據(jù)塊擴(kuò)展、編碼,并將其存儲在不同位置,比如硬盤、存儲節(jié)點或其他物理位置。
"糾刪碼,可以簡單理解成對原始數(shù)據(jù)做線性組合",許胤龍教授表示。比如 (2+2) 糾刪碼,就是A、B兩個數(shù)據(jù)可以做A+B和A+2B的線性組合,能容任意兩個節(jié)點錯,當(dāng)恢復(fù)數(shù)據(jù)的時候直接解方程就行。一般情況下,業(yè)界常用的是(k,m)-MDS碼,把k個數(shù)據(jù)編碼成m個校驗數(shù)據(jù),k+m個數(shù)據(jù)塊形成一個條帶,最多可以容許m個塊同時故障。工業(yè)界常見的m一般是2或3,數(shù)據(jù)規(guī)模較大的話,可以把m設(shè)為4~6。
糾刪碼 跑得如絲般順滑并非易事
糾刪碼"花小錢、辦大事"的優(yōu)勢雖然非常明顯,但要在超大規(guī)模數(shù)據(jù)中心內(nèi)或者是跨數(shù)據(jù)中心使用糾刪碼做數(shù)據(jù)保護(hù),卻需要過五關(guān)闖六將,絕非易事。
第一關(guān):同一數(shù)據(jù)中心內(nèi),數(shù)據(jù)恢復(fù)的網(wǎng)絡(luò)傳輸時間占比超90%,糾刪碼"龜速"難題如何破。
糾刪碼能夠降低存儲成本、提高容錯能力,但糾刪碼最大的問題是在數(shù)據(jù)丟失之后,數(shù)據(jù)恢復(fù)過程需要從其他地方讀取大量數(shù)據(jù),故障修復(fù)堪稱龜速。通過對糾刪碼"從存活節(jié)點讀取數(shù)據(jù)、傳輸、在備份節(jié)點解碼、傳輸、在替代節(jié)點寫入"的整個流程做分析,發(fā)現(xiàn)網(wǎng)絡(luò)傳輸占整個數(shù)據(jù)恢復(fù)時間的比例超90%,如何優(yōu)化數(shù)據(jù)恢復(fù)時間呢?
首先,數(shù)據(jù)分批恢復(fù)。在實際系統(tǒng)里面,數(shù)據(jù)塊是隨機(jī)的分布到不同的節(jié)點里,隨機(jī)數(shù)據(jù)分布從統(tǒng)計概率的角度來說,是能達(dá)到負(fù)載均衡的。但一般來說,在系統(tǒng)實現(xiàn)的時候,一般來說因為系統(tǒng)IO、內(nèi)存、CPU資源也有限,同時系統(tǒng)還要支撐前臺的應(yīng)用綜合各方面,所以修復(fù)一般都會是分批進(jìn)行。"我們做過實驗,分批比不分批大概要快15%左右",許教授表示。
其次,可以利用二部圖和網(wǎng)絡(luò)流圖的辦法,使得從不同的節(jié)點上進(jìn)行恢復(fù)的時候,不同節(jié)點上讀數(shù)據(jù)量是均衡的,寫數(shù)據(jù)量也是均衡的,并且每一個節(jié)點承擔(dān)的恢復(fù)任務(wù)也是均衡的。清華、港中大、普渡、中科大等高校均對糾刪碼技術(shù)進(jìn)行了研究,經(jīng)過優(yōu)化中科大SelectiveEC技術(shù)能夠在90%以上的情況下都實現(xiàn)負(fù)載均衡,相比HDFS大約50%的負(fù)載均衡水平,中科大的負(fù)載均衡水平能高出70%以上,恢復(fù)速度提升30%以上。同時Selective EC比HDFS有更少的毛刺、更短的長尾、更短的任務(wù)生命周期。
"我們很認(rèn)同許教授的觀點,為了實現(xiàn)數(shù)據(jù)糾刪的負(fù)載均衡,浪潮存儲一直在技術(shù)上不斷打磨和創(chuàng)新",浪潮信息分布式存儲架構(gòu)師張立強(qiáng)表示。浪潮分布式存儲AS13000突破軟硬件協(xié)同寬條帶糾刪技術(shù),融合多元算力,解決數(shù)據(jù)高冗余比糾刪的計算性能、資源消耗、容量、可靠性等指標(biāo)難以兼顧的問題。舉個例子,浪潮存儲創(chuàng)新研制了糾刪碼FPGA加速卡,設(shè)計可重構(gòu)最小硬件邏輯單元,實現(xiàn)編解碼復(fù)用、全糾刪比支持,實現(xiàn)寬條帶糾刪的CPU計算卸載。在32+6糾刪比配置下,浪潮存儲能夠?qū)⑻幚砥髌脚_的CPU占用率降低90%,性能提升390%,這就如同將汽車行駛的速度提升到了復(fù)興號的水平。其實浪潮分布式存儲在高校領(lǐng)域應(yīng)用廣泛,目前已經(jīng)在中科大、清華、北大、復(fù)旦、浙大、中山大學(xué)等國內(nèi)高校實現(xiàn)規(guī)?;渴?,支撐科研智慧應(yīng)用平臺穩(wěn)定運行,以數(shù)據(jù)之力助力科研取得豐碩成果。
第二關(guān):跨數(shù)據(jù)中心場景,數(shù)據(jù)中心帶寬極其有限,如何"跨越萬水千山"做糾刪。
考慮到地震、山洪、火災(zāi)等災(zāi)害因素影響,大型企業(yè)往往會跨數(shù)據(jù)中心做數(shù)據(jù)保護(hù)。所謂跨數(shù)據(jù)中心,是指多個數(shù)據(jù)中心可能建在距離城區(qū)比較遠(yuǎn)的地方或者是不同的城區(qū)的地方,這時候跨數(shù)據(jù)中心的帶寬就會很寶貴,通常跟數(shù)據(jù)中心內(nèi)部的帶寬相比,跨數(shù)據(jù)中心帶寬只有1/20。
RS碼部署方式在同一數(shù)據(jù)中心內(nèi)做糾刪是有優(yōu)勢的,但在跨數(shù)據(jù)中心環(huán)境下卻面臨挑戰(zhàn)。這是因為RS碼是把一個條帶的數(shù)據(jù)均勻分布到不同數(shù)據(jù)中心去。假如現(xiàn)在有15個數(shù)據(jù)塊,把它編碼成12個校驗塊,分散在三個數(shù)據(jù)中心,這時候只能容單個數(shù)據(jù)中心故障,存儲開銷大概是180%,如果出現(xiàn)單塊故障,需要跨數(shù)據(jù)中心訪問7個數(shù)據(jù)塊,需要的帶寬開銷比較多。
新型LRC(Locally Repairable Code)分組編碼方式,可以在存儲開銷和恢復(fù)性能之間做一個權(quán)衡。LRC(k,l,g)分組編碼有三個值,k表示數(shù)據(jù)塊,l代表局部校驗塊,g是全局校驗塊。LRC分組編碼通過讀取局部數(shù)據(jù)塊,減少重構(gòu)所需的數(shù)據(jù)量,從而提升數(shù)據(jù)修復(fù)性能。這就好比618購物,北京小伙買一箱牛奶,如何用最快的速度把貨物送到顧客手里呢,電商平臺會找到距離顧客比較近的天津或河北倉庫(類似l局部校驗塊)進(jìn)行配送,盡量減少從西安或廣州(類似g全局校驗塊)調(diào)貨的概率。
按照新型部署方式,"在實際集群里面,我們實現(xiàn)了數(shù)據(jù)傳輸、數(shù)據(jù)解碼的優(yōu)化,大概能把速度提升30%",許胤龍教授表示。
"浪潮一直將可靠性視為存儲的生命線,在異地數(shù)據(jù)保護(hù)方面做了諸多創(chuàng)新",浪潮信息存儲研發(fā)部何營表示。浪潮存儲不僅基于一套存儲架構(gòu)承載塊、文件、對象、大數(shù)據(jù)等多種數(shù)據(jù)服務(wù),在WAN加速、快速重構(gòu)、透明故障切換等高級功能方面持續(xù)創(chuàng)新。以WAN廣域網(wǎng)加速技術(shù)為例,浪潮存儲通過數(shù)據(jù)流壓縮、固定塊切割和多數(shù)據(jù)流并發(fā),將遠(yuǎn)程傳輸性能提升高達(dá)10倍、延時降低10倍,幫助海量數(shù)據(jù)異地遷徙和災(zāi)備。
小結(jié)
伴隨元宇宙、AI、大數(shù)據(jù)新技術(shù)、新應(yīng)用不斷涌現(xiàn),數(shù)字經(jīng)濟(jì)正在成為中國經(jīng)濟(jì)發(fā)展的關(guān)鍵因素。數(shù)據(jù)顯示,從2020年到2025年數(shù)字經(jīng)濟(jì)核心產(chǎn)業(yè)增加值將從7.9萬億提升至13萬億,是驅(qū)動GDP增長的引擎。
"浪潮存儲是整體市場全球前四、分布式存儲銷量中國第一的存儲廠商,糾刪碼技術(shù)在浪潮大部分分布式存儲客戶中得到應(yīng)用,為產(chǎn)業(yè)轉(zhuǎn)型升級構(gòu)筑了數(shù)據(jù)護(hù)盾",浪潮信息首席架構(gòu)師葉毓睿表示。未來浪潮存儲將攜手產(chǎn)學(xué)研用各方力量,共建場景共同體驅(qū)動社會高質(zhì)量發(fā)展。