北京2021年8月20日 /美通社/ -- 人們經(jīng)常會在熱搜上看到某個網(wǎng)站崩了,某個APP服務器“走丟”了,這背后,都是對服務器安全及可靠性的擔憂。尤其是政府、金融、電網(wǎng)以及鐵路等行業(yè)對IT基礎設施的可靠性以及安全性要求極高的行業(yè)應用,一旦系統(tǒng)出現(xiàn)問題,對用戶來說可能是上千萬甚至是上億的損失。
可靠性從4個9到5個9,如何達到?
談及服務器的可靠性,業(yè)內(nèi)人士常常會用4個9或者5個9,也就是99.99%與99.999%。看上去雖然4個9與5個9的差距僅有微乎其微的0.009%,但是對于核心系統(tǒng)而言,恰恰是這不到0.01%的差距,決定了系統(tǒng)的可靠性完全不在一個層級。
4個9與5個9的可用性,在一年的時間維度上,相差了47.304分鐘,平均一個月相差僅4分鐘,但是一家大型商業(yè)銀行如停機超過半小時造成的業(yè)務損失與聲譽等損失可達數(shù)億元人民幣,并且這種損失有逐年遞增的趨勢。因此大型商業(yè)銀行需要服務器的可靠性達到“5個9”級別(一年間業(yè)務中斷時間不能超過5.256分鐘)。而比如在電網(wǎng)行業(yè)與鐵路行業(yè),服務器的可靠性直接關(guān)系到居民的用電安全以及乘車安全,因此電網(wǎng)與鐵路行業(yè)對服務器的可靠性要求同樣達到“5個9”的更高級別。
其實,服務器的可靠性并不完全取決于硬件,而是由軟件和硬件來共同決定的,想要一款高可靠的服務器,就必須從元器件的選擇、硬件架構(gòu)設計、生產(chǎn)組裝、品質(zhì)檢測各個環(huán)節(jié)嚴格把控。多年以來,浪潮在服務器領域積累的豐富的設計制造經(jīng)驗,并將這些經(jīng)驗不斷總結(jié)提煉,形成了一套獨有的方法論。
精細考量 不放過任何一個元器件
千里之堤毀于蟻穴,任何一點小小的瑕疵,都可能成為引起整個系統(tǒng)崩潰的元兇。一臺服務器擁有至少5000多個元器件,每一個元器件的選擇都不能容許任何瑕疵,所以選擇可靠的元器件是最基礎,卻也是最不容忽視的關(guān)鍵一步。
浪潮服務器在選擇元器件時,首先會對眾多供應商的產(chǎn)品質(zhì)量、技術(shù)水平、響應速度以及環(huán)保標準等方面進行綜合考量,從中選出滿足標準的供應商。同時,浪潮服務器要求所有元器件滿足高于國家通用規(guī)范的降額設計標準,即元器件在工作中承受的極限應力小于額定值,并留有足夠的應對極限情況的余量,其實主要是電應力和溫度應力,保障高可靠的電性能及較低熱衰減,大大降低故障率,提升系統(tǒng)可靠性。
此外,為了確保所有元器件并非“外強中干”,浪潮還會采用諸多先進的元器件分析設備,如雙束聚焦離子束顯微鏡、等離子刻蝕機等,對其進行剖析、驗證、失效分析等,以確定器件的工藝水平、質(zhì)量滿足浪潮服務器生產(chǎn)要求。
潛在故障預測分析 將一切隱患扼殺在搖籃
雖然大部分企業(yè)業(yè)務系統(tǒng)都有故障預警應急機制,而大部分服務器等IT基礎設施也都有故障快速定位功能,但是浪潮服務器追求的卻是從產(chǎn)品設計階段就把所有可能存在的潛在問題快速識別出來,從而預先采取防御措施,將一切隱患扼殺在搖籃里。
在產(chǎn)品設計階段,浪潮針對所有板間互聯(lián)信號和關(guān)鍵器件的工作狀態(tài)進行仿真分析,確保無故障遺漏,并對故障進行預測識別和優(yōu)化處理。同時要進行系統(tǒng)級故障監(jiān)測、預警及隔離開發(fā),對于所有風險,要求盡最大可能避免,對于需要處理的故障,要求能夠快速監(jiān)測定位。
浪潮服務器盡量在設計階段最大限度地消除潛在的可靠性隱患,在產(chǎn)品發(fā)生故障之前提前進行分析,確保各組件之間實現(xiàn)最高可靠協(xié)同運行。
關(guān)鍵系統(tǒng)創(chuàng)新性設計 給可靠性再加一道保險
浪潮對服務器的散熱系統(tǒng)、存儲系統(tǒng)以及系統(tǒng)備用等方面不斷進行創(chuàng)新性探索和研究,保障服務器可靠性在整機層面臻于極致。
服務器為了追求更高密度,不斷壓縮空間,對散熱帶來了很大的挑戰(zhàn),在現(xiàn)有的風冷致冷條件下,浪潮服務器采用了許多創(chuàng)新性散熱設計,例如在M6系列服務器中增加蜂窩波導散熱網(wǎng),對風扇入風處風流做整流處理,提高風扇進風口的流速并且減少了擾流的產(chǎn)生,加大波導網(wǎng)厚度可進一步提高空氣壓力,產(chǎn)生平行穩(wěn)定且強勁的氣流,相比傳統(tǒng)服務器,散熱效率整體可提升22%。
存儲型服務器因為配備了大量的硬盤往往面臨著共振問題,針對這個問題,浪潮服務器的硬盤托架專門選擇了航空減震材料,能夠有效抗震,保證硬盤安全的同時大幅降低故障概率。同時配備硬盤故障監(jiān)控、預警功能,可對硬盤無法讀寫、硬盤RAID信息損壞、硬盤讀寫速度變慢、硬盤溫度過高等故障進行快速告警。
浪潮服務器注重熱插拔設計,對電源模塊、風扇模塊、存儲模塊、IO模塊等關(guān)鍵模塊均采用冗余設計,可實現(xiàn)在線更換,保證系統(tǒng)穩(wěn)定可靠的運行環(huán)境。
魔鬼般檢測標準 確保都是精品
在汽車屆著名的達喀爾拉力賽,被稱為勇敢者的游戲,參賽選手們需要在最短時間內(nèi)穿越無人的沙漠險地。由于賽程地勢險峻、氣候惡劣,對汽車和車手堪稱魔鬼般的歷練,沒有強大的技術(shù)和品質(zhì)保證,很難跑完全程。在浪潮的實驗室,每一款服務器出廠之前也都要經(jīng)過“達喀爾拉力賽”:跌落、沖擊、雷擊、高低溫、高低濕、鹽堿、噪聲、電源、老化、失效分析……測試,覆蓋了產(chǎn)品設計驗證、測試到產(chǎn)線質(zhì)量保障等14個技術(shù)平臺,解決從產(chǎn)品可行性驗證、產(chǎn)品和部件各類測試、量產(chǎn)問題消除等覆蓋全生產(chǎn)鏈的技術(shù)問題。
浪潮服務器生產(chǎn)線配備老化實驗室,對服務器進行加速壽命試驗。這主要是為了加速暴露母板的設計缺陷和薄弱點,并對暴露的缺陷和故障從設計、工藝和用料等諸方面進行分析和改進,從而達到快速提升產(chǎn)品可靠性的目的。
此外還會進行超過業(yè)界標準的電磁兼容性測試,所謂電磁兼容,就是對電子產(chǎn)品在電磁場方面干擾大?。‥MI)和抗干擾能力(EMS)的綜合評定,是產(chǎn)品質(zhì)量最重要的指標之一,涉及傳導抗擾度、射頻抗擾度、靜電抗擾度等多項測試指標。
為了讓服務器具備更強的環(huán)境適應性,浪潮服務器還會模擬運輸環(huán)境測試、氣候環(huán)境測試和極限環(huán)境測試,進行三大類幾十種測試,檢驗服務器在各種條件下的可靠性,測定耐受高低溫、跌落、高濕等惡性環(huán)境的極限。例如進行45度/分鐘的溫度劇變試驗,在零上100和零下40-50度進行產(chǎn)品溫度極限測試,30G震動過載抗振強度,模擬海拔12000米的環(huán)境進行高空低氣壓測試等。
百煉成鋼 磨礪鑄就完美
通過前面的介紹可以看出,想要鍛造一款真正高可靠的服務器,需要每個階段全方位的努力,對元器件嚴苛的品質(zhì)管理,對產(chǎn)品設計快速準確的自我糾錯能力,對產(chǎn)品系統(tǒng)設計的不斷創(chuàng)新,對出廠產(chǎn)品的一道道檢測標準,只有這些都不斷做到完美,才能產(chǎn)出真正高可靠的服務器。
浪潮服務器正是秉承著這樣的原則,一步步打造出全新的M6系列服務器,針對智慧時代需求設計,包括面向云計算、大數(shù)據(jù)、人工智能等應用場景的6大系列16款產(chǎn)品,以業(yè)界最為豐富的場景產(chǎn)品陣列為用戶數(shù)字化轉(zhuǎn)型提供更加強大的算力支撐。
本文作者浪潮信息服務器產(chǎn)品線副總經(jīng)理 陳彥靈