北京2024年4月9日 /美通社/ -- 越來越多的企業(yè)將關(guān)鍵性的工作負(fù)載放到云上,如何確保云上業(yè)務(wù)的連續(xù)性即云的韌性對企業(yè)來說就越來越重要。在亞馬遜云科技,我們從一開始就在基礎(chǔ)設(shè)施、服務(wù)設(shè)計與部署、運營模式和機制中將韌性考慮其中。例如,亞馬遜云科技在一個區(qū)域內(nèi)三個或更多可用區(qū)的設(shè)計,可通過更多冗余和更好的隔離來控制故障的影響面。亞馬遜云科技將韌性根植于服務(wù)的設(shè)計之中,不同級別的服務(wù)有對應(yīng)的、隔離的控制面和數(shù)據(jù)面,并逐層實施隔離。
如今,全球數(shù)百萬用戶選擇亞馬遜云科技,包括對數(shù)據(jù)高度敏感的組織如納斯達(dá)克、道瓊斯、美國金融監(jiān)管局(FINRA)、默沙東等,他們信賴亞馬遜云科技提供的安全、穩(wěn)定、可信賴的云服務(wù),滿足其業(yè)務(wù)需求。
將韌性構(gòu)建到亞馬遜云科技的方方面面
為構(gòu)建和運行世界上最可靠的云,亞馬遜云科技持續(xù)投入,在服務(wù)設(shè)計和部署機制中構(gòu)建保障措施,并將韌性植根于運營文化之中。亞馬遜云科技服務(wù)的設(shè)計中就考慮了如何防止中斷和事故的發(fā)生,因此當(dāng)中斷確實發(fā)生時,對客戶和服務(wù)的連續(xù)性的影響將是最小的。為了避免單點故障,我們最小化全球基礎(chǔ)設(shè)施之間的互聯(lián)性。亞馬遜云科技全球基礎(chǔ)設(shè)施地理位置分散,遍及33個地理區(qū)域的105個可用區(qū)。亞馬遜云科技的區(qū)域由一個地理區(qū)域內(nèi)的多個相互獨立,且在物理上分隔的可用區(qū)組成。每個可用區(qū)都有獨立的電力、制冷和物理安全設(shè)施,可用區(qū)之間通過冗余的超低延遲網(wǎng)絡(luò)連接。同一區(qū)域內(nèi)的可用區(qū)之間具有足夠的距離,最遠(yuǎn)可達(dá)約100公里,既能防止相關(guān)故障,但又能實現(xiàn)單位毫秒級延遲的同步復(fù)制。亞馬遜云科技是唯一在每個區(qū)域內(nèi)提供三個或更多可用區(qū)的云提供商,通過更多冗余和更好的隔離來控制故障的影響面。常見故障點,如發(fā)電機和冷卻設(shè)備等,不會在可用區(qū)之間共享,并且設(shè)計為由獨立的電力變電站供電。為了獲得高可用性的同時可以實現(xiàn)更大的容錯能力,客戶可以將他們的應(yīng)用程序設(shè)計為在多個可用區(qū)中運行。
韌性根植于亞馬遜云科技服務(wù)設(shè)計之中。在亞馬遜云科技構(gòu)建的服務(wù)必須滿足極高的可用性目標(biāo)。我們會仔細(xì)考慮我們系統(tǒng)所依賴的因素。即使這些依賴項受到影響,我們的設(shè)計也使我們的系統(tǒng)保持韌性;我們使用被稱為靜態(tài)穩(wěn)定性來實現(xiàn)這種程度的韌性。這意味著系統(tǒng)以靜態(tài)狀態(tài)運行,并在發(fā)生故障或依賴項不可用時繼續(xù)正常運行,無需進行任何更改。例如,在Amazon Elastic Compute Cloud (Amazon EC2)中,實例啟動后就和數(shù)據(jù)中心中的物理服務(wù)器一樣可用。其他亞馬遜云科技資源如虛擬私有云(VPC)、Amazon Simple Storage Service (Amazon S3)存儲桶以及Amazon Elastic Block Store (Amazon EBS)卷也具有相同的特性。
賦能客戶在其所有工作中構(gòu)建韌性
數(shù)百萬客戶信賴亞馬遜云科技是構(gòu)建和運行關(guān)鍵業(yè)務(wù)和關(guān)鍵任務(wù)應(yīng)用程序的最佳場所。我們提供了一套全面的專門構(gòu)建的服務(wù)、策略和架構(gòu)最佳實踐,客戶可以使用這些服務(wù)、策略和最佳實踐來提升企業(yè)自身的韌性。這些服務(wù)、策略和最佳實踐在亞馬遜云科技韌性生命周期框架中被概述成了五個階段:設(shè)定目標(biāo)、設(shè)計和實施、評估和測試、運營以及響應(yīng)和學(xué)習(xí)。彈性生命周期框架模仿標(biāo)準(zhǔn)軟件開發(fā)生命周期,因此客戶可以輕松地將韌性納入現(xiàn)有流程。
例如,客戶可以使用Amazon Resilience Hub來設(shè)置目標(biāo),根據(jù)這些目標(biāo)評估韌性狀況,并根據(jù)Amazon Well-Architected Framework和Amazon Trusted Advisor的建議實施改進措施。在Resilience Hub中,客戶可以創(chuàng)建和運行Amazon Fault Injection Service實驗,這些實驗允許客戶測試其應(yīng)用程序?qū)⑷绾雾憫?yīng)某些類型的中斷。
其他服務(wù),如Amazon Backup、Amazon Elastic Disaster Recovery (Amazon DRS)和Amazon Route53 Application Recovery Controller (Route 53 ARC),可以幫助客戶快速響應(yīng)和從中斷中恢復(fù)。當(dāng)湯森路透(一家為超過100個國家的客戶提供稅務(wù)、法律、媒體和政府解決方案的國際媒體公司)希望改善其業(yè)務(wù)部門之一的數(shù)據(jù)保護和應(yīng)用程序恢復(fù)時,他們采用了Amazon DRS。Amazon DRS為湯森路透提供了持續(xù)復(fù)制,因此他們在源環(huán)境中所做的更改會在幾秒鐘內(nèi)更新到災(zāi)難恢復(fù)站點。
行而不輟,未來可期
新技術(shù)、新威脅和新的處事之道層出不窮。這就是亞馬遜云科技不懈努力改進基礎(chǔ)設(shè)施、服務(wù)設(shè)計、運營模式和機制,持續(xù)加強與發(fā)展云設(shè)施韌性的原因。亞馬遜云科技將持續(xù)為客戶提供廣泛、深入的架構(gòu)及運營最佳實踐服務(wù)、工具和指導(dǎo),幫助客戶在云中構(gòu)建和運行彈性應(yīng)用程序。