鐵道部售票網12306“三天兩宕” 脈山龍數據中心運維專家支招
深圳2012年12月28日電 /美通社/ -- 繼12月24日“因機房空調系統(tǒng)故障”停止售票數小時之后,12月26日上午鐵道部12306訂票網站再度癱瘓,直到傍晚6點鐘左右才恢復正常,公告原因仍是“空調系統(tǒng)故障”。從事數據中心運維服務近10年的專家、脈山龍公司服務業(yè)務部總經理謝飛對此提出了專業(yè)的見解和建議,從數據中心運維角度為12306支招。
鐵道部售票網(www.12306.cn)“三天兩宕”,引發(fā)業(yè)界、媒體及網友質疑的同時,即將到來的春運購票高峰期更讓不少旅客憂心忡忡??照{故障是導致售票網站癱瘓的罪魁禍首嗎?為什么機房空調故障會導致網站售票系統(tǒng)無法正常運行呢?在現有技術架構下,如何能有效降低設備故障率,保障售票網站正常運行呢?從事數據中心運維服務近10年的專家脈山龍公司服務業(yè)務部總經理謝飛提出了專業(yè)的見解和建議,從數據中心運維角度為12306支招。
12306癱瘓原因解析:空調故障是造成系統(tǒng)癱瘓的重要因素
回顧12306歷次停擺事件,網站技術架構及中標的相關服務方都成為被外界質疑的熱點話題。數據中心運維整體服務商脈山龍公司服務業(yè)務部總經理謝飛認為,12306本質上與蘇寧易購、京東商城、淘寶網等電商網站一樣,對同時并發(fā)訪問和下單的響應要求極高,但鐵路售票系統(tǒng)需要處理大量車次、坐席、時間等查詢任務,對服務器請求處理的能力要求非常之高。在現有技術架構下,鐵道部為提高響應速度和購票體驗,不斷增加服務器等硬件設備和功耗無疑給既定的空調系統(tǒng)和動力系統(tǒng)帶來沉重的負擔,壓縮了動力系統(tǒng)和制冷系統(tǒng)冗余空間,可能一臺空調設備發(fā)生故障就會導致整個機房的溫度上升,最終導致服務器過熱而宕機。
謝飛表示,空調系統(tǒng)非常重要,數據中心內的服務器、存儲、網絡設備等硬件運行時產生大量的熱量,對于制冷的要求非常之高。國標對于機房的溫度要求一般在23±2度,一般的服務器如果進風口溫度在40攝氏度以上,服務器就會因為熱保護自動關機。如果機房溫度超過30攝氏度就有可能導致部分熱積聚區(qū)域的服務器宕機,機房溫度在35攝氏度以上就可能有較多的服務器宕機,超過40攝氏度,將會有大部分的服務器宕機。一旦空調故障停機,機房內的溫度會迅速升溫,半個小時內機房溫度就可達到50攝氏度以上,這時大部分服務器等設備都會因為過熱而宕機,造成系統(tǒng)癱瘓??照{故障是造成系統(tǒng)癱瘓的一個很重要的因素。
專家支招:災備是前提,運維管理是根本
數據中心常見故障如斷電、空調故障、UPS 故障、網絡接口線路松動等,空調故障可能只是造成12306宕機的一個原因,但一般數據中心都有備用空調、UPS 等設備,并輪流使用和定期保養(yǎng),一旦遇到設備故障,可實現平滑無縫切換備用設備,不會影響系統(tǒng)正常運行。謝飛認為,12306這種支撐超大訪問量的數據中心應該也配有備用空調,“空調故障導致系統(tǒng)停止運行,極大可能是運維技術團隊對空調系統(tǒng)和數據中心的日常運維的缺位?!?/p>
同時,為保障業(yè)務的連續(xù)性,目前大部分企業(yè)的數據中心都設有災備中心,通常采用雙機熱備、定時備份以及異地存儲和備份的方式,尤其是金融行業(yè)已經開始引入虛擬化和云計算的新技術,形成“兩地三中心”的備份模式,能確保數據的安全。謝飛建議,如果12306業(yè)務均集中在一個數據中心處理,安全系數非常低,一定要考慮建設備份中心,進行數據的實時傳輸和容災備份,這是數據中心安全運行的前提。一旦主數據中心癱瘓,系統(tǒng)就可以實時切換到備份中心繼續(xù)運行。
他還建議,數據中心運維團隊應對監(jiān)控報警系統(tǒng)進行測試和檢查,一旦機房空調系統(tǒng)故障導致機房內溫、濕度升高或設備出現溫度告警等異?,F象時,還應執(zhí)行機房空調故障應急處理預案,將影響降到較低。
有著豐富經驗的謝飛,作為脈山龍公司服務業(yè)務部負責人,目前掌管著包括金融、商業(yè)連鎖、通信電子、政府等行業(yè)上千家企業(yè)機構的數據中心運維服務業(yè)務。以他多年的運維經驗來看,備份和運維缺一不可,可以保障業(yè)務連續(xù)不中斷,但是,“即使采取各個層次的容災備份方式,建立了災備中心,運維服務管理仍然是問題的根本所在,良好的運維服務管理能使數據中心保持健康狀態(tài),也只有服務管理才能防患未然、真正降低故障率?!敝x飛提到本月中旬網傳中行信用卡 IBM 大機宕機超過4小時的事件,他指出盡管大型機一般都很穩(wěn)定,但發(fā)生宕機或故障后,未能及時切換災備、快速恢復運行,還是跟系統(tǒng)監(jiān)控檢查、監(jiān)控預警、日常的運營演習、災備演習等日常運維存在很大關系。
建立在一系列標準運維流程基礎上的數據中心運維服務管理,可以跟蹤記錄設備的動態(tài)歷史運維數據,通過分析這些數據提供數據中心的健康狀態(tài),為用戶的 IT 決策提供依據?!爸匾暺鸱盏墓芾?,12306可以實現數據中心各個子系統(tǒng)健康狀況的可視化,在設備還沒有出現故障之前,就已經及時進行了維修或更換,機房的可用性就能得到極大提升”,謝飛總結道,“T4的機房規(guī)劃還需要T4的運營管理?!?/p>