omniture

服務(wù)器又崩了?揭秘如何打造一款真正高可靠的服務(wù)器

2021-08-20 09:51 4813

北京2021年8月20日 /美通社/ -- 人們經(jīng)常會在熱搜上看到某個網(wǎng)站崩了,某個APP服務(wù)器走丟了,這背后,都是對服務(wù)器安全及可靠性的擔憂。尤其是政府、金融、電網(wǎng)以及鐵路等行業(yè)對IT基礎(chǔ)設(shè)施的可靠性以及安全性要求極高的行業(yè)應(yīng)用,一旦系統(tǒng)出現(xiàn)問題,對用戶來說可能是上千萬甚至是上億的損失。

可靠性從4個9到5個9,如何達到?

談及服務(wù)器的可靠性,業(yè)內(nèi)人士常常會用4個9或者5個9,也就是99.99%與99.999%??瓷先ルm然4個9與5個9的差距僅有微乎其微的0.009%,但是對于核心系統(tǒng)而言,恰恰是這不到0.01%的差距,決定了系統(tǒng)的可靠性完全不在一個層級。


4個9與5個9的可用性,在一年的時間維度上,相差了47.304分鐘,平均一個月相差僅4分鐘,但是一家大型商業(yè)銀行如停機超過半小時造成的業(yè)務(wù)損失與聲譽等損失可達數(shù)億元人民幣,并且這種損失有逐年遞增的趨勢。因此大型商業(yè)銀行需要服務(wù)器的可靠性達到“5個9”級別(一年間業(yè)務(wù)中斷時間不能超過5.256分鐘)。而比如在電網(wǎng)行業(yè)與鐵路行業(yè),服務(wù)器的可靠性直接關(guān)系到居民的用電安全以及乘車安全,因此電網(wǎng)與鐵路行業(yè)對服務(wù)器的可靠性要求同樣達到“5個9”的更高級別。

其實,服務(wù)器的可靠性并不完全取決于硬件,而是由軟件和硬件來共同決定的,想要一款高可靠的服務(wù)器,就必須從元器件的選擇、硬件架構(gòu)設(shè)計、生產(chǎn)組裝、品質(zhì)檢測各個環(huán)節(jié)嚴格把控。多年以來,浪潮在服務(wù)器領(lǐng)域積累的豐富的設(shè)計制造經(jīng)驗,并將這些經(jīng)驗不斷總結(jié)提煉,形成了一套獨有的方法論。

精細考量 不放過任何一個元器件

千里之堤毀于蟻穴,任何一點小小的瑕疵,都可能成為引起整個系統(tǒng)崩潰的元兇。一臺服務(wù)器擁有至少5000多個元器件,每一個元器件的選擇都不能容許任何瑕疵,所以選擇可靠的元器件是最基礎(chǔ),卻也是最不容忽視的關(guān)鍵一步。

浪潮服務(wù)器在選擇元器件時,首先會對眾多供應(yīng)商的產(chǎn)品質(zhì)量、技術(shù)水平、響應(yīng)速度以及環(huán)保標準等方面進行綜合考量,從中選出滿足標準的供應(yīng)商。同時,浪潮服務(wù)器要求所有元器件滿足高于國家通用規(guī)范的降額設(shè)計標準,即元器件在工作中承受的極限應(yīng)力小于額定值,并留有足夠的應(yīng)對極限情況的余量,其實主要是電應(yīng)力和溫度應(yīng)力,保障高可靠的電性能及較低熱衰減,大大降低故障率,提升系統(tǒng)可靠性。


此外,為了確保所有元器件并非“外強中干”,浪潮還會采用諸多先進的元器件分析設(shè)備,如雙束聚焦離子束顯微鏡、等離子刻蝕機等,對其進行剖析、驗證、失效分析等,以確定器件的工藝水平、質(zhì)量滿足浪潮服務(wù)器生產(chǎn)要求。

潛在故障預(yù)測分析 將一切隱患扼殺在搖籃

雖然大部分企業(yè)業(yè)務(wù)系統(tǒng)都有故障預(yù)警應(yīng)急機制,而大部分服務(wù)器等IT基礎(chǔ)設(shè)施也都有故障快速定位功能,但是浪潮服務(wù)器追求的卻是從產(chǎn)品設(shè)計階段就把所有可能存在的潛在問題快速識別出來,從而預(yù)先采取防御措施,將一切隱患扼殺在搖籃里。

在產(chǎn)品設(shè)計階段,浪潮針對所有板間互聯(lián)信號和關(guān)鍵器件的工作狀態(tài)進行仿真分析,確保無故障遺漏,并對故障進行預(yù)測識別和優(yōu)化處理。同時要進行系統(tǒng)級故障監(jiān)測、預(yù)警及隔離開發(fā),對于所有風險,要求盡最大可能避免,對于需要處理的故障,要求能夠快速監(jiān)測定位。


浪潮服務(wù)器盡量在設(shè)計階段最大限度地消除潛在的可靠性隱患,在產(chǎn)品發(fā)生故障之前提前進行分析,確保各組件之間實現(xiàn)最高可靠協(xié)同運行。

關(guān)鍵系統(tǒng)創(chuàng)新性設(shè)計 給可靠性再加一道保險

浪潮對服務(wù)器的散熱系統(tǒng)、存儲系統(tǒng)以及系統(tǒng)備用等方面不斷進行創(chuàng)新性探索和研究,保障服務(wù)器可靠性在整機層面臻于極致。

服務(wù)器為了追求更高密度,不斷壓縮空間,對散熱帶來了很大的挑戰(zhàn),在現(xiàn)有的風冷致冷條件下,浪潮服務(wù)器采用了許多創(chuàng)新性散熱設(shè)計,例如在M6系列服務(wù)器中增加蜂窩波導(dǎo)散熱網(wǎng),對風扇入風處風流做整流處理,提高風扇進風口的流速并且減少了擾流的產(chǎn)生,加大波導(dǎo)網(wǎng)厚度可進一步提高空氣壓力,產(chǎn)生平行穩(wěn)定且強勁的氣流,相比傳統(tǒng)服務(wù)器,散熱效率整體可提升22%。


存儲型服務(wù)器因為配備了大量的硬盤往往面臨著共振問題,針對這個問題,浪潮服務(wù)器的硬盤托架專門選擇了航空減震材料,能夠有效抗震,保證硬盤安全的同時大幅降低故障概率。同時配備硬盤故障監(jiān)控、預(yù)警功能,可對硬盤無法讀寫、硬盤RAID信息損壞、硬盤讀寫速度變慢、硬盤溫度過高等故障進行快速告警。

浪潮服務(wù)器注重熱插拔設(shè)計,對電源模塊、風扇模塊、存儲模塊、IO模塊等關(guān)鍵模塊均采用冗余設(shè)計,可實現(xiàn)在線更換,保證系統(tǒng)穩(wěn)定可靠的運行環(huán)境。

魔鬼般檢測標準 確保都是精品

在汽車屆著名的達喀爾拉力賽,被稱為勇敢者的游戲,參賽選手們需要在最短時間內(nèi)穿越無人的沙漠險地。由于賽程地勢險峻、氣候惡劣,對汽車和車手堪稱魔鬼般的歷練,沒有強大的技術(shù)和品質(zhì)保證,很難跑完全程。在浪潮的實驗室,每一款服務(wù)器出廠之前也都要經(jīng)過“達喀爾拉力賽”:跌落、沖擊、雷擊、高低溫、高低濕、鹽堿、噪聲、電源、老化、失效分析……測試,覆蓋了產(chǎn)品設(shè)計驗證、測試到產(chǎn)線質(zhì)量保障等14個技術(shù)平臺,解決從產(chǎn)品可行性驗證、產(chǎn)品和部件各類測試、量產(chǎn)問題消除等覆蓋全生產(chǎn)鏈的技術(shù)問題。

浪潮服務(wù)器生產(chǎn)線配備老化實驗室,對服務(wù)器進行加速壽命試驗。這主要是為了加速暴露母板的設(shè)計缺陷和薄弱點,并對暴露的缺陷和故障從設(shè)計、工藝和用料等諸方面進行分析和改進,從而達到快速提升產(chǎn)品可靠性的目的。

此外還會進行超過業(yè)界標準的電磁兼容性測試,所謂電磁兼容,就是對電子產(chǎn)品在電磁場方面干擾大?。‥MI)和抗干擾能力(EMS)的綜合評定,是產(chǎn)品質(zhì)量最重要的指標之一,涉及傳導(dǎo)抗擾度、射頻抗擾度、靜電抗擾度等多項測試指標。


為了讓服務(wù)器具備更強的環(huán)境適應(yīng)性,浪潮服務(wù)器還會模擬運輸環(huán)境測試、氣候環(huán)境測試和極限環(huán)境測試,進行三大類幾十種測試,檢驗服務(wù)器在各種條件下的可靠性,測定耐受高低溫、跌落、高濕等惡性環(huán)境的極限。例如進行45度/分鐘的溫度劇變試驗,在零上100和零下40-50度進行產(chǎn)品溫度極限測試,30G震動過載抗振強度,模擬海拔12000米的環(huán)境進行高空低氣壓測試等。

百煉成鋼 磨礪鑄就完美

通過前面的介紹可以看出,想要鍛造一款真正高可靠的服務(wù)器,需要每個階段全方位的努力,對元器件嚴苛的品質(zhì)管理,對產(chǎn)品設(shè)計快速準確的自我糾錯能力,對產(chǎn)品系統(tǒng)設(shè)計的不斷創(chuàng)新,對出廠產(chǎn)品的一道道檢測標準,只有這些都不斷做到完美,才能產(chǎn)出真正高可靠的服務(wù)器。

浪潮服務(wù)器正是秉承著這樣的原則,一步步打造出全新的M6系列服務(wù)器,針對智慧時代需求設(shè)計,包括面向云計算、大數(shù)據(jù)、人工智能等應(yīng)用場景的6大系列16款產(chǎn)品,以業(yè)界最為豐富的場景產(chǎn)品陣列為用戶數(shù)字化轉(zhuǎn)型提供更加強大的算力支撐。

本文作者浪潮信息服務(wù)器產(chǎn)品線副總經(jīng)理 陳彥靈

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection