omniture

OCP China Day:數(shù)據(jù)中心自動(dòng)運(yùn)行光網(wǎng)絡(luò)

2020-12-10 08:00 4169
由浪潮和OCP基金會(huì)聯(lián)合舉辦的第二屆OCP China Day 暨OCP Tech Week全球技術(shù)峰會(huì)中國專場開幕。騰訊作為OCP中國社區(qū)的核心成員,在現(xiàn)場介紹了當(dāng)前數(shù)據(jù)中心互聯(lián)光網(wǎng)絡(luò)技術(shù)的發(fā)展,及騰訊基于標(biāo)準(zhǔn)化單元構(gòu)建的自動(dòng)運(yùn)行光網(wǎng)絡(luò)。

北京2020年12月10日 /美通社/ -- 近日,以“Connect·Collaborate·Accelerate”為主題,由浪潮和OCP基金會(huì)聯(lián)合舉辦的第二屆OCP China Day 暨OCP Tech Week全球技術(shù)峰會(huì)中國專場在北京望京凱悅酒店隆重開幕。騰訊作為OCP中國社區(qū)的核心成員,在峰會(huì)現(xiàn)場介紹了當(dāng)前數(shù)據(jù)中心互聯(lián)光網(wǎng)絡(luò)技術(shù)的發(fā)展,以及騰訊基于標(biāo)準(zhǔn)化單元構(gòu)建的自動(dòng)運(yùn)行光網(wǎng)絡(luò)。目前,騰訊已將光網(wǎng)絡(luò)的標(biāo)準(zhǔn)單元快速復(fù)制到數(shù)據(jù)中心互聯(lián)應(yīng)用中,有效應(yīng)對數(shù)據(jù)中心互聯(lián)帶寬的快速增長。

數(shù)據(jù)中心光網(wǎng)絡(luò)面臨挑戰(zhàn)

過去的10年是互聯(lián)網(wǎng)高速發(fā)展的10年,隨著產(chǎn)業(yè)的不斷發(fā)展,應(yīng)用種類極大豐富,用戶規(guī)??涨褒嫶蟆M粋€(gè)應(yīng)用就擁有千萬級(jí)別用戶,上PB數(shù)據(jù)量。在這樣的環(huán)境下,早期的單機(jī)或集群的計(jì)算模式已經(jīng)無法滿足應(yīng)用的發(fā)展要求,更大規(guī)模的云計(jì)算模式是互聯(lián)網(wǎng)持續(xù)發(fā)展的必經(jīng)之路。

受限于目前數(shù)據(jù)中心的規(guī)模問題以及異地容災(zāi)的需求,往往一個(gè)應(yīng)用會(huì)分布在多個(gè)數(shù)據(jù)中心之內(nèi),導(dǎo)致在不同的云數(shù)據(jù)中心之間往往會(huì)產(chǎn)生幾百甚至上千GB的帶寬需求。在這樣的背景下,光網(wǎng)絡(luò)逐漸走入了互聯(lián)網(wǎng)企業(yè)的視野。

騰訊的開放光網(wǎng)絡(luò)平臺(tái)是騰訊新一代光網(wǎng)絡(luò)系統(tǒng),基于超強(qiáng)的采集和控制能力不斷提升光網(wǎng)絡(luò)的自動(dòng)化水平,目標(biāo)是構(gòu)建一個(gè)高度自動(dòng)化、友好的光網(wǎng)絡(luò)。目前,騰訊的開放光網(wǎng)絡(luò)平臺(tái)已經(jīng)解決了硬件標(biāo)準(zhǔn)化問題,開發(fā)標(biāo)準(zhǔn)的OPC-4設(shè)備,實(shí)現(xiàn)電層系統(tǒng)與光層系統(tǒng)的解耦合,不再綁定單一供應(yīng)商。同時(shí)騰訊開放光網(wǎng)絡(luò)平臺(tái)標(biāo)準(zhǔn)化的管控模型也已開發(fā)完畢。通過騰訊開放光網(wǎng)絡(luò)控制器實(shí)現(xiàn)對不同廠商設(shè)備的統(tǒng)一管控。

開放光網(wǎng)絡(luò)的未來 -- 自動(dòng)化

數(shù)據(jù)流量的快速增長,要求我們部署越來越多的帶寬?;ヂ?lián)網(wǎng)的時(shí)代,層出不窮的應(yīng)用被創(chuàng)造出來,他們便捷了我們的生活,提升了效率。這些應(yīng)用加工數(shù)據(jù)、產(chǎn)生數(shù)據(jù),特別是一些新的、流行的移動(dòng)應(yīng)用在人群中傳播速度非??欤S之帶來的是流量的迅速增長,這要求我們必須以更快的速度部署帶寬資源。為數(shù)據(jù)中心提供高質(zhì)量帶寬,保證帶寬長期穩(wěn)定運(yùn)行,開放光網(wǎng)絡(luò)的研發(fā)被騰訊提上日程。

為應(yīng)對大規(guī)模數(shù)據(jù)中心快速增長的互聯(lián)帶寬,騰訊技術(shù)人員針對數(shù)據(jù)中心互聯(lián)組網(wǎng)的特點(diǎn),構(gòu)建了一套開放光網(wǎng)絡(luò)系統(tǒng),通過將光網(wǎng)絡(luò)切割成一個(gè)一個(gè)獨(dú)立的標(biāo)準(zhǔn)化單元,設(shè)計(jì)為更加適用于數(shù)據(jù)中心應(yīng)用的硬件設(shè)備OPC-4,TPC-4和設(shè)備管控模型,構(gòu)建起標(biāo)準(zhǔn)化管控系統(tǒng),實(shí)現(xiàn)對不同廠商設(shè)備的統(tǒng)一管理,混合組網(wǎng),并將標(biāo)準(zhǔn)單元應(yīng)用到數(shù)據(jù)中心互聯(lián)中,在一定程度上能夠更加有效應(yīng)對帶寬的快速增長。

隨著系統(tǒng)規(guī)模越來越大,網(wǎng)絡(luò)運(yùn)營壓力也持續(xù)增大,騰訊正在為系統(tǒng)構(gòu)建自動(dòng)化自主運(yùn)行能力,使系統(tǒng)能夠常態(tài)化自動(dòng)運(yùn)行。騰訊技術(shù)人員依然是從標(biāo)準(zhǔn)結(jié)構(gòu)入手,基于閉環(huán)控制的原理,為標(biāo)準(zhǔn)結(jié)構(gòu)構(gòu)建起自主運(yùn)行的能力,使它能夠自己管理自己,自己優(yōu)化自己,使系統(tǒng)能夠常態(tài)化自動(dòng)運(yùn)行。這樣一旦標(biāo)準(zhǔn)結(jié)構(gòu)具備了自主運(yùn)行能力,便可以快速的將這種能力復(fù)制到整個(gè)網(wǎng)絡(luò),使整個(gè)網(wǎng)絡(luò)能夠常態(tài)化自動(dòng)運(yùn)行。


數(shù)據(jù)中心自動(dòng)光網(wǎng)絡(luò)邁進(jìn)三部曲 

數(shù)據(jù)中心互聯(lián)光網(wǎng)絡(luò)在持續(xù)向前演進(jìn),從最初依靠工程師經(jīng)驗(yàn)驅(qū)動(dòng)的光網(wǎng)絡(luò),到標(biāo)準(zhǔn)模型一統(tǒng)天下的模型驅(qū)動(dòng)光網(wǎng)絡(luò),再向數(shù)據(jù)為王的數(shù)據(jù)驅(qū)動(dòng)光網(wǎng)絡(luò)演進(jìn)。第一個(gè)階段,主要依靠經(jīng)驗(yàn)豐富的工程師,將不同廠商的傳輸系統(tǒng)部署到了數(shù)據(jù)中心網(wǎng)絡(luò)。此時(shí)系統(tǒng)的復(fù)雜度是最高的,因?yàn)殡m然滿足同樣的需求,但是不同廠商的設(shè)備,實(shí)現(xiàn)的方案是不一樣的,整個(gè)網(wǎng)絡(luò)充斥著不同廠商的不同方案,面對本質(zhì)上類似的技術(shù)問題,雖然掌握基本原理,但是要落實(shí)到具體的系統(tǒng),就需要熟悉某個(gè)系統(tǒng)的專家來幫助分析問題,同時(shí)需要針對特定系統(tǒng)操作熟練的工程師配合,這個(gè)階段運(yùn)維大廳里坐著很多不同廠商的工程師。此時(shí)系統(tǒng)是最復(fù)雜的,需要最多的人來處理解決問題。

如何降低系統(tǒng)的復(fù)雜度?減少人工干預(yù)?答案是:標(biāo)準(zhǔn)化,程序化!通過構(gòu)建標(biāo)準(zhǔn)化的流程,用程序去處理模型統(tǒng)一一致的物理設(shè)備,可以很大程度的降低整個(gè)系統(tǒng)的復(fù)雜度。這就是第二個(gè)階段模型驅(qū)動(dòng)階段,這個(gè)階段大家會(huì)針對自己的系統(tǒng)定義標(biāo)準(zhǔn)模型,而騰訊則更進(jìn)一步,直接定義系統(tǒng)需要的硬件設(shè)備,這樣即使不同廠商進(jìn)行生產(chǎn),但設(shè)備的形態(tài)保持一致,這明顯降低了系統(tǒng)的復(fù)雜度,不用再去關(guān)注不同設(shè)備的細(xì)節(jié)差異,開始基于相同的模型構(gòu)建,來對系統(tǒng)進(jìn)行思考。

這個(gè)階段強(qiáng)調(diào)的是模型的一致性,行為的一致性。當(dāng)系統(tǒng)標(biāo)準(zhǔn)化后,對系統(tǒng)進(jìn)行數(shù)字化升級(jí)改造,極大的提升了系統(tǒng)的數(shù)據(jù)采集能力,使系統(tǒng)能夠采集到更多、更精細(xì)化的數(shù)據(jù)。為我們向下一個(gè)階段:數(shù)據(jù)驅(qū)動(dòng)的光網(wǎng)絡(luò)演進(jìn)奠定基礎(chǔ)。

經(jīng)歷了模型驅(qū)動(dòng)階段,系統(tǒng)具備了標(biāo)準(zhǔn)模型,同時(shí)積累了大量的數(shù)據(jù),使整個(gè)系統(tǒng)全景數(shù)據(jù)化成為可能。而源源不斷的數(shù)據(jù)也成為了驅(qū)動(dòng)系統(tǒng)不斷發(fā)現(xiàn)問題,解決問題的核心驅(qū)動(dòng)力,至此我們?yōu)橄到y(tǒng)構(gòu)建起了一個(gè)數(shù)據(jù)引擎,驅(qū)動(dòng)系統(tǒng)不斷的優(yōu)化和演進(jìn)。


構(gòu)建自動(dòng)控制架構(gòu)關(guān)鍵能力

騰訊開放光網(wǎng)絡(luò)的自動(dòng)控制架構(gòu),本質(zhì)是一個(gè)閉環(huán)控制架構(gòu)。整個(gè)架構(gòu)的關(guān)鍵點(diǎn)是四大關(guān)鍵能力的構(gòu)建:控制能力,采集能力,感知能力,決策能力。然后將這四大能力合理有序的串聯(lián)起來,便可以實(shí)現(xiàn)整個(gè)系統(tǒng)的自動(dòng)運(yùn)行。采集能力采集到系統(tǒng)更加詳盡、更加精細(xì)的運(yùn)行數(shù)據(jù),感知能力通過對運(yùn)行數(shù)據(jù)的分析,感知到系統(tǒng)的變化,決策能力則是使系統(tǒng)具備科學(xué)分析,科學(xué)決策的能力,依據(jù)感知結(jié)果對系統(tǒng)作出科學(xué)決策,并將指令傳遞給控制系統(tǒng)執(zhí)行,實(shí)現(xiàn)對系統(tǒng)的閉環(huán)控制。


構(gòu)建光網(wǎng)絡(luò)的感知能力

什么是感知能力?用人體的一個(gè)體驗(yàn)作為一個(gè)例子,如果人體被針扎一下或者手?jǐn)Q一下,都會(huì)體會(huì)到疼痛,人體體會(huì)到疼痛是一種采集能力,但是我們的大腦能夠準(zhǔn)確從這兩種疼痛不同的表現(xiàn)方式,感覺出哪個(gè)是針扎,哪個(gè)是手?jǐn)Q,這就是感知能力??梢钥吹礁兄芰κ且环N對數(shù)據(jù)的分析,并得到結(jié)論的能力。在傳統(tǒng)的光網(wǎng)絡(luò)系統(tǒng)中,對數(shù)據(jù)的感知往往是由經(jīng)驗(yàn)豐富的工程師來完成的,騰訊正在幫助系統(tǒng)構(gòu)建起這種能力,使系統(tǒng)能夠在無人干預(yù)的情況下,自行實(shí)現(xiàn)對數(shù)據(jù)的經(jīng)驗(yàn)性轉(zhuǎn)化。目前騰訊開放光網(wǎng)絡(luò)已經(jīng)具備了控制能力和采集能力,正在進(jìn)行感知能力和分析能力的構(gòu)建。

騰訊主要是從兩個(gè)維度來構(gòu)建系統(tǒng)的感知能力,一個(gè)維度是:系統(tǒng)維度,另一個(gè)維度是:時(shí)間維度。系統(tǒng)維度,首先構(gòu)建針對單個(gè)指標(biāo)的感知能力,通過對不同指標(biāo)的感知來判斷系統(tǒng)變化。我們的系統(tǒng)從物理上看是由硬件和光纖組成的,而這兩大類物理可見的物件,又是運(yùn)營中可以操作的基本單元,構(gòu)建針對硬件和光纖的感知能力,使系統(tǒng)能夠準(zhǔn)確的感知其故障和潛在風(fēng)險(xiǎn),觸發(fā)相關(guān)運(yùn)維操作,便可以有效將非預(yù)期的故障轉(zhuǎn)化為預(yù)期的網(wǎng)絡(luò)操作,有效避免故障的發(fā)生。傳輸系統(tǒng)最終是一個(gè)帶寬系統(tǒng),我們常常會(huì)被用戶問及現(xiàn)在帶寬情況如何?帶寬的感知能力構(gòu)建則是讓系統(tǒng)能夠自行回答這個(gè)問題。帶寬感知是系統(tǒng)最為關(guān)鍵的一環(huán),使讓系統(tǒng)能夠感知帶寬的運(yùn)行狀態(tài),對潛在風(fēng)險(xiǎn)進(jìn)行合理規(guī)避,有效降低帶寬的非預(yù)期性中斷,保證系統(tǒng)長期穩(wěn)定運(yùn)行。

而從時(shí)間角度,則要為系統(tǒng)構(gòu)建快速感知能力,中速感知能力和慢速感知能力,這是從系統(tǒng)問題分析的時(shí)效性出發(fā)定義的能力??焖俑兄菍π阅軘?shù)據(jù)的實(shí)時(shí)分析,快速捕獲系統(tǒng)故障。中速感知?jiǎng)t是對系統(tǒng)潛在風(fēng)險(xiǎn)或者關(guān)鍵指標(biāo)變化的分析和感知,這往往需要對一定量數(shù)據(jù)進(jìn)行分析,才能發(fā)現(xiàn)一定的特征。而慢速感知?jiǎng)t是通過對大量數(shù)據(jù)的分析來感知系統(tǒng)運(yùn)行趨勢,可以對系統(tǒng)未來的運(yùn)行狀況進(jìn)行預(yù)測。


設(shè)備作為整個(gè)系統(tǒng)的運(yùn)行數(shù)據(jù)采集終端,騰訊在想辦法提升其采集數(shù)據(jù)的速率和精度,在騰訊的持續(xù)努力下,目前設(shè)備可以按照1s間隔向控制器推送性能數(shù)據(jù),而且關(guān)鍵性能指標(biāo)的時(shí)間分辨率可以達(dá)到20ms??刂破髯鳛橄到y(tǒng)計(jì)算能力主要單元,則在持續(xù)提升其數(shù)據(jù)處理及時(shí)性和準(zhǔn)確性。基于1s streaming telemetry構(gòu)建的數(shù)字驅(qū)動(dòng)系統(tǒng),對比傳統(tǒng)傳輸系統(tǒng)的15min性能數(shù)據(jù),不僅僅是900倍的時(shí)間分辨率提升,更是對系統(tǒng)觀測能力的革命。正是基于對系統(tǒng)的精細(xì)化觀測,使我們能夠精確感知、準(zhǔn)確控制。


數(shù)據(jù)驅(qū)動(dòng)為系統(tǒng)帶來了革命性的變化的同時(shí),也帶了極大的挑戰(zhàn)。數(shù)據(jù)驅(qū)動(dòng)系統(tǒng)的核心是:數(shù)據(jù)與算法。我們希望在這兩個(gè)方面與更多的合作伙伴一起合作,在數(shù)據(jù)為王的時(shí)代,數(shù)據(jù)源的質(zhì)量直接影響到系統(tǒng)的正確表達(dá),如何保證數(shù)據(jù)源的質(zhì)量,如何監(jiān)控?cái)?shù)據(jù)源的質(zhì)量,是一項(xiàng)關(guān)鍵任務(wù)。

而找到數(shù)據(jù)背后的真相,發(fā)現(xiàn)問題的本質(zhì)則會(huì)從根本上改變我們和供應(yīng)商的協(xié)作方式,由原來我們只能在問題發(fā)生后被動(dòng)的接受故障分析報(bào)告,演進(jìn)到可以根據(jù)數(shù)據(jù)發(fā)現(xiàn)的真相,有效驅(qū)動(dòng)供應(yīng)商進(jìn)行精準(zhǔn)的問題修復(fù),防患于未然。在算法方面,找到針對指標(biāo)感知更加通用的算法,找到更加合理的帶寬質(zhì)量分析算法,找到更加通用的硬件和網(wǎng)絡(luò)系統(tǒng)分析算法,則是我們關(guān)注的重點(diǎn),有效解決光網(wǎng)絡(luò)系統(tǒng)問題的同時(shí),更為通用的算法也可以更加便捷的應(yīng)用到其他網(wǎng)絡(luò)領(lǐng)域中。

在本次OCP China Day大會(huì)上,可以看到來自騰訊、百度、Intel、微軟、浪潮、三星、希捷等不同領(lǐng)域的開放計(jì)算社區(qū)成員,騰訊的OPC-4和TOOP是開放的光網(wǎng)絡(luò)項(xiàng)目,百度的天蝎整機(jī)柜是開放的計(jì)算項(xiàng)目,三星poseidon是一款存儲(chǔ)產(chǎn)品,阿里的液冷是開放的數(shù)據(jù)中心散熱項(xiàng)目……在這些開源項(xiàng)目背后,是計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等不同領(lǐng)域的開源項(xiàng)目正在相互融合匯聚,開放計(jì)算不僅推動(dòng)形成了下一代數(shù)據(jù)中心的基本技術(shù)框架,也在加速構(gòu)建開放融合的統(tǒng)一計(jì)算生態(tài)。

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection