omniture

關(guān)于云計(jì)算可用性的定性和定量研究

2013-05-06 11:41

【中云網(wǎng)獨(dú)家】 作者:陳懷臨 中云網(wǎng)首席顧問

摘要:

云計(jì)算在被越來越多的個(gè)人和企業(yè)所采用, 但人們對(duì)于云計(jì)算服務(wù)在安全性, 可靠性和服務(wù)響應(yīng)確定性方面的擔(dān)憂也與日俱增. 雖然云服務(wù)提供商(Clouds Service Provider) 通常都會(huì)承諾SLA(Service Level Agreement)的可用性(Availability)范圍等, 但許多云租戶不理解可用性的內(nèi)在復(fù)雜性, 因此在選擇云平臺(tái)時(shí)缺乏對(duì)風(fēng)險(xiǎn)進(jìn)行評(píng)估的能力. 本文首次系統(tǒng)的定義和分析了云計(jì)算可用性的算法模型, 特別是對(duì)云計(jì)算的IaaS, PaaS和SaaS各個(gè)層次可用性的內(nèi)在關(guān)系展開定性討論. 文章的最后, 針對(duì)2008年到2012年以來AWS被外界所報(bào)道過的服務(wù)事故做了相應(yīng)的統(tǒng)計(jì)調(diào)查和一些定量分析.

1. 云計(jì)算的挑戰(zhàn):

云服務(wù)在被越來越多的企業(yè)所采用. 據(jù)Gartner預(yù)測(cè), 2013年公有云的市場(chǎng)份額將會(huì)以8%的增長率從2012年的1110億美金增長至1310億美金, 如圖1所示.

圖1 公有云服務(wù)市場(chǎng)和年增長率

在IaaS(Infrastructure as a Service)方面, 增長速度為47.3%, 市場(chǎng)份額為90億美金. 2012年, IaaS增長了42.4%. 2016年, 公有云的市場(chǎng)大小會(huì)達(dá)到2100億美金, 增長率為17.7%, 而在IaaS方面會(huì)保持41.3%的增長率[1].

然而, 隨著大量中小型企業(yè)的CIO在考慮把公司的數(shù)據(jù)和應(yīng)用遷移到云計(jì)算平臺(tái)上, 伴隨而來的是對(duì)云計(jì)算的服務(wù)質(zhì)量(Quality of Service)的擔(dān)憂.

UCBerkeley計(jì)算機(jī)系RAD實(shí)驗(yàn)室的Michael Armbrust等在2009年2月發(fā)表了關(guān)于對(duì)云計(jì)算服務(wù)的論文--“Above the Clouds:A Berkeley View of Cloud Computing”. 文中Berkeley提出了其理解的云計(jì)算概念模型, 并提出了云服務(wù)必須克服的10大障礙[2], 如圖2所示.

圖2 Berkeley的云計(jì)算模型

在這10大障礙中, 1(Availability of Service), 2(Data Confidentiality and Auditability), 5(Performance Unpredictability), 6(Scalable Storage), 7(Bugs in Large-Scale Distributed Systems), 8(Scaling Quickly) 都與云計(jì)算質(zhì)量緊密相關(guān). Berkeley在對(duì)可用性(Availability)的解釋中, 還特別提到了DDoS攻擊對(duì)云計(jì)算帶來的危害和需要防范的措施.

另外, 據(jù)來自Newvem的調(diào)查數(shù)據(jù)報(bào)告, 有35%的亞馬遜的AWS用戶對(duì)宕機(jī)基本上沒有防范措施; 40%的AWS用戶沒有定期做數(shù)據(jù)的備份. TeamQuest最近對(duì)許多企業(yè)的CIO做了一次調(diào)查, 接受調(diào)查的的CIO有40%的表示他們?cè)谑褂迷朴?jì)算的時(shí)候發(fā)生了機(jī)群宕機(jī)現(xiàn)象[3].

2012年, 許多著名的公有云計(jì)算數(shù)據(jù)中心都發(fā)生了重大的安全事故.下面是一些典型的案例[4][5]:

*2012年2月29日和7月26日, 微軟的Azure發(fā)生事故, 時(shí)間分別為長達(dá)9個(gè)小時(shí)和2.5個(gè)小時(shí), 許多北美和歐洲的用戶無法正常管理和使用其公司正常業(yè)務(wù), 有的徹底丟失了他們最新的數(shù)據(jù).

* 2012年6月14日, 6月29日, 10月22日和圣誕節(jié)期間的12月24日, 亞馬遜AWS發(fā)生了嚴(yán)重云服務(wù)緩慢和崩潰無法訪問的問題, 影響的租戶包括許多重要的互聯(lián)網(wǎng)公司, 例如Netflix, pInterest, twitter, Instagram等等[4]. 每次事故導(dǎo)致用戶無法正常使用服務(wù)的時(shí)間長達(dá)9個(gè)小時(shí)和更多. 

* 2012年7月10日, 著名的SaaS(Service as a Service)公司Salesforce的服務(wù)出現(xiàn)重大停頓. 其原因是提供Salesforce公司IaaS服務(wù)的公司(Equinix)的數(shù)據(jù)中心電源失效. Equinix據(jù)說在1分鐘內(nèi)就恢復(fù)了電源. 但Salesforce花費(fèi)了接近9個(gè)小時(shí)來完整的恢復(fù)其相關(guān)業(yè)務(wù).

* 2012年9月10日, 著名的DNS服務(wù)提供商GoDaddy的數(shù)據(jù)中心服務(wù)暫停. GoDaddy管理著接近5千萬個(gè)域名和5百萬個(gè)WEB站點(diǎn). 這次服務(wù)無法正常使用長達(dá)7個(gè)小時(shí). 其原因被解釋為路由器的數(shù)據(jù)被破壞. 也有媒體報(bào)道是GoDaddy遭遇到了強(qiáng)大的DDoS攻擊. 但這一聲稱被GoDaddy否認(rèn).

* 2012年10月26日, 谷歌的App Engine云服務(wù)出現(xiàn)暫停, 時(shí)間長達(dá)4個(gè)小時(shí). 事后谷歌沒有發(fā)表具體原因解釋.

* 2012年10月26日, 著名的云存儲(chǔ)提供商Dropbox的服務(wù)出現(xiàn)暫停, 時(shí)間長達(dá)10個(gè)小時(shí). 其具體原因不詳. 

 由上可見, 伴隨著云計(jì)算本身具備的無可爭(zhēng)議的巨大價(jià)值, 云計(jì)算帶來的諸多服務(wù)質(zhì)量問題也正變得越來越明顯.

因此對(duì)云計(jì)算的可用性的定性和定量分析逐漸變?yōu)橐粋€(gè)兼有研究和工程價(jià)值的問題. 有助于幫助CIO們?cè)u(píng)估一個(gè)云計(jì)算平臺(tái).

目前學(xué)術(shù)和工業(yè)界對(duì)云計(jì)算, 特別是公有云的可用性方面還沒有引起足夠的重視. 缺乏這方面的定性和定量分析工作.

本文首次系統(tǒng)的定義和分析了云計(jì)算可用性的算法模型, 特別是對(duì)云計(jì)算的IaaS, PaaS和SaaS各個(gè)層次可用性的內(nèi)在關(guān)系展開定性討論. 文章的最后, 針對(duì)2008年到2012年以來AWS被外界所報(bào)道過的服務(wù)事故做了相應(yīng)的統(tǒng)計(jì)調(diào)查和一些定量分析.

2. 云計(jì)算可用性(Cloud Computing Availability)

云計(jì)算可用性是一個(gè)很廣義的概念. 本文定義云計(jì)算可用性如下:

云計(jì)算可用性: 包括IaaS, PaaS和SaaS各個(gè)層面服務(wù)的連接, 可靠性, 延時(shí), 數(shù)據(jù)泄露和丟失, 網(wǎng)絡(luò)攻擊以及其他任何意外而導(dǎo)致租戶的業(yè)務(wù)不能滿足期望, 或者更嚴(yán)重的業(yè)務(wù)完全暫停.  云服務(wù)商通常是通過SLA(Service Level Agreement) 來量化可用性的承諾, 給出相應(yīng)的Availability的數(shù)值范圍, 例如,99.9%或者99.99等等.

按照云計(jì)算層次的分類[6],  我們認(rèn)為云計(jì)算的Availability(簡(jiǎn)稱AvailabilityCS) 包括IaaS的Availability(AvailabilityIaaS), PaaS的Availability(AvailabilityPaaS)和SaaS的Availability (AvailabilitySaaS).

我們認(rèn)為, 用戶最終感知的的云計(jì)算的可用性是與云計(jì)算3個(gè)層面的可用性緊密相關(guān)的.

在下面小節(jié)中, 我們首先來形式化定義一個(gè)云計(jì)算服務(wù)的可用性并做相應(yīng)的算法討論. 然后, 對(duì)云計(jì)算分層模型中IaaS, PaaS和SaaS在可用性之間的關(guān)系做理論探討.

2.1 可用性

假定在一個(gè)采樣時(shí)間范圍(例如時(shí)間 T小時(shí)內(nèi))服務(wù)發(fā)生的不可用(Unavailable)次數(shù)是N. 每次不可用之前正常運(yùn)行的時(shí)間定義為TBFi(Time Before Failure). 每次用來恢復(fù)服務(wù)正常運(yùn)行的時(shí)間定義為TTRi(Time To Repair).

圖3  云計(jì)算服務(wù)的可用性

由圖3可知, 在采樣時(shí)間T范圍內(nèi), 服務(wù)的可用性為:

因此, 我們推導(dǎo)出在時(shí)間T小時(shí)里, 云服務(wù)的可用性為:

其中:

MTBFT: 在時(shí)間T內(nèi), 云服務(wù)的Mean Time Before Failure[7].

MTTRT: 在時(shí)間T內(nèi), 云服務(wù)的Mean Time To Repair[8].

根據(jù)公式1, 我們可以定義一個(gè)云服務(wù)在基于采樣周期T下, 時(shí)間跨度為K下的Mean Time Availability(MTA)為:

假設(shè)一個(gè)云服務(wù)的SLA取樣時(shí)間T是每天, 或者說24個(gè)小時(shí). 如果考察7224個(gè)小時(shí)的MTA, 根據(jù)上述公式, 其MTA計(jì)算方法為:

消息來源:中云網(wǎng)