北京2021年5月21日 /美通社/ -- 近日,亞馬遜云科技宣布Amazon DevOps Guru正式可用。這是一項(xiàng)完全托管的運(yùn)營(yíng)服務(wù),使用機(jī)器學(xué)習(xí)技術(shù)自動(dòng)檢測(cè)運(yùn)營(yíng)問(wèn)題,并對(duì)具體的修復(fù)措施給出建議,讓開(kāi)發(fā)者更輕松地提高應(yīng)用的可用性。憑借亞馬遜電商Amazon.com和亞馬遜云科技多年來(lái)卓越的運(yùn)營(yíng)經(jīng)驗(yàn),Amazon DevOps Guru采用機(jī)器學(xué)習(xí)技術(shù)自動(dòng)分析數(shù)據(jù),如應(yīng)用程序指標(biāo)、日志、事件,并跟蹤偏離正常運(yùn)營(yíng)模式的行為。當(dāng)Amazon DevOps Guru發(fā)現(xiàn)可能導(dǎo)致停機(jī)或服務(wù)中斷的異常應(yīng)用程序行為時(shí),它會(huì)向開(kāi)發(fā)人員發(fā)出告警通知并提供問(wèn)題詳細(xì)信息,幫助他們快速了解問(wèn)題的潛在影響和可能的原因,并提供修復(fù)的具體建議。開(kāi)發(fā)人員可以使用Amazon DevOps Guru提供的補(bǔ)救建議,減少解決問(wèn)題的時(shí)間,并提高應(yīng)用程序的可用性 -- 所有這些都不需要手動(dòng)設(shè)置或機(jī)器學(xué)習(xí)專業(yè)知識(shí)。Amazon DevOps Guru無(wú)需預(yù)付費(fèi)用,客戶只需為Amazon DevOps Guru分析的數(shù)據(jù)付費(fèi)。欲開(kāi)始使用Amazon DevOps Guru,請(qǐng)?jiān)L問(wèn):aws.amazon.com/devops-guru
隨著越來(lái)越多的組織轉(zhuǎn)向基于云的應(yīng)用程序部署和微服務(wù)架構(gòu)來(lái)擴(kuò)展他們的業(yè)務(wù),分布式應(yīng)用程序變得越來(lái)越普遍,開(kāi)發(fā)人員需要更多的自動(dòng)化實(shí)踐來(lái)維護(hù)應(yīng)用程序的可用性,并減少用于檢測(cè)、調(diào)試和解決運(yùn)營(yíng)問(wèn)題所耗費(fèi)的時(shí)間和精力。由于代碼錯(cuò)誤或配置更改、不均衡的容器集群或資源耗盡(例如CPU、內(nèi)存、磁盤等)等引起的應(yīng)用程序宕機(jī)事件會(huì)導(dǎo)致糟糕的客戶體驗(yàn)和收入損失。公司投入了大量的開(kāi)發(fā)人員資源、時(shí)間和金錢來(lái)部署多種監(jiān)控工具,而這些工具通常需要單獨(dú)管理,且必須開(kāi)發(fā)和維護(hù)針對(duì)常見(jiàn)問(wèn)題的自定義警報(bào),如負(fù)載均衡錯(cuò)誤的峰值或應(yīng)用程序請(qǐng)求率的下降。設(shè)置閾值來(lái)識(shí)別和警告應(yīng)用程序資源的異常行為通常需要手動(dòng)設(shè)置,并且要求閾值必須隨著應(yīng)用程序使用的變化而不斷更新(例如,在促銷期間出現(xiàn)異常大量的請(qǐng)求)。如果閾值設(shè)置得太高,開(kāi)發(fā)人員只有在運(yùn)營(yíng)性能受到嚴(yán)重影響時(shí)才會(huì)看到警報(bào)。而閾值設(shè)置得太低時(shí),告警次數(shù)過(guò)于頻繁,導(dǎo)致開(kāi)發(fā)者的判斷受到影響并容易忽視這些報(bào)警。即使開(kāi)發(fā)人員收到了潛在運(yùn)營(yíng)問(wèn)題的警告,確定根本原因的過(guò)程仍然是困難的。使用現(xiàn)有的工具,開(kāi)發(fā)人員常常很難從圖表和警報(bào)中找出運(yùn)營(yíng)問(wèn)題的根本原因,即使找到根本原因,也常常缺乏正確的信息來(lái)修復(fù)它。每次故障排除嘗試都是一次冷啟動(dòng),團(tuán)隊(duì)必須花費(fèi)數(shù)小時(shí)或數(shù)天時(shí)間來(lái)識(shí)別問(wèn)題,耗時(shí)且乏味,拖慢解決運(yùn)營(yíng)故障的進(jìn)程,并可能延長(zhǎng)應(yīng)用程序中斷的時(shí)間。
Amazon DevOps Guru的機(jī)器學(xué)習(xí)模型借鑒Amazon.com 20多年來(lái)在構(gòu)建、擴(kuò)展和維護(hù)高可用的應(yīng)用程序方面的運(yùn)營(yíng)經(jīng)驗(yàn)。該服務(wù)能夠自動(dòng)檢測(cè)運(yùn)營(yíng)問(wèn)題(例如,缺少或配置錯(cuò)誤的警報(bào)、資源耗盡的早期預(yù)警、可能導(dǎo)致宕機(jī)的配置更改等),提供涉及資源和相關(guān)事件的情境,建議采取補(bǔ)救措施。用戶只需在Amazon DevOps Guru控制臺(tái)點(diǎn)擊幾下,就會(huì)自動(dòng)從其亞馬遜云科技應(yīng)用程序中獲取歷史應(yīng)用程序和基礎(chǔ)設(shè)施指標(biāo)(如延遲、錯(cuò)誤率和資源請(qǐng)求率),并進(jìn)行分析,建立正常的運(yùn)營(yíng)邊界。Amazon DevOps Guru使用一個(gè)預(yù)先訓(xùn)練的機(jī)器學(xué)習(xí)模型來(lái)識(shí)別與正常操作模式偏離的行為(例如,不足的計(jì)算能力、數(shù)據(jù)庫(kù)I/O利用率、內(nèi)存泄漏等)。當(dāng)Amazon DevOps Guru分析系統(tǒng)和應(yīng)用數(shù)據(jù)自動(dòng)檢測(cè)異常時(shí),它還將這些數(shù)據(jù)分組到運(yùn)營(yíng)洞察中,包括異常指標(biāo)、應(yīng)用程序隨時(shí)間變化的行為可視化,以及補(bǔ)救措施建議 -- 所有這些都可以在Amazon DevOps Guru控制臺(tái)輕松查看。Amazon DevOps Guru還將相關(guān)的應(yīng)用程序和基礎(chǔ)設(shè)施指標(biāo)(例如web應(yīng)用程序延遲峰值、磁盤空間耗盡、糟糕的代碼部署等)關(guān)聯(lián)和分組,以減少冗余警報(bào),幫助用戶關(guān)注嚴(yán)重的問(wèn)題。客戶可以通過(guò)Amazon DevOps Guru控制臺(tái)的儀表板查看配置更改歷史和部署事件,以及系統(tǒng)和用戶活動(dòng),從而生成一個(gè)可能導(dǎo)致運(yùn)營(yíng)問(wèn)題的優(yōu)先級(jí)列表。為了幫助客戶快速解決問(wèn)題,Amazon DevOps Guru提供含有補(bǔ)救步驟的智能建議,并與Amazon Systems Manager集成,用于運(yùn)行手冊(cè)和協(xié)作工具,使客戶能夠更有效地維護(hù)應(yīng)用程序和管理其部署的基礎(chǔ)設(shè)施。例如,當(dāng)使用Amazon Relational Database Service (RDS)的分析應(yīng)用程序開(kāi)始顯示出延遲性能退化時(shí),Amazon DevOps Guru將通過(guò)自動(dòng)分析跨應(yīng)用程序堆棧的相關(guān)指標(biāo)來(lái)檢測(cè)變化,確定潛在的根本原因(例如并發(fā)計(jì)算實(shí)例寫入RDS的數(shù)量增加),并提供解決問(wèn)題的建議(例如增加RDS的容量和IOPS存儲(chǔ)以處理更高的負(fù)載)。
“客戶希望亞馬遜云科技能夠提供更多服務(wù),將我們數(shù)十年來(lái)不斷改善Amazon.com應(yīng)用可用性方面的卓越經(jīng)驗(yàn)為他們所用?!眮嗰R遜云科技全球機(jī)器學(xué)習(xí)副總裁Swami Sivasubramanian表示,“Amazon DevOps Guru正是發(fā)揮我們的專長(zhǎng),構(gòu)建專門的機(jī)器學(xué)習(xí)模型,可以在運(yùn)營(yíng)問(wèn)題影響客戶之前就檢測(cè)、排除故障并預(yù)防它們,而不是在每次出現(xiàn)問(wèn)題后開(kāi)始處理。Amazon DevOps Guru可以即刻為客戶帶來(lái)好處,獲得我們運(yùn)行Amazon.com過(guò)程中積累的運(yùn)營(yíng)最佳實(shí)踐,我們將Amazon DevOps Guru設(shè)計(jì)得簡(jiǎn)單易用,對(duì)于每個(gè)亞馬遜云科技的客戶來(lái)說(shuō),都可以輕松地啟用該服務(wù)。”
客戶只需在亞馬遜云科技管理控制臺(tái)中點(diǎn)擊幾下,就可以使用Amazon DevOps Guru在幾分鐘內(nèi)開(kāi)始分析帳戶和應(yīng)用程序活動(dòng),并提供運(yùn)營(yíng)洞察。Amazon DevOps Guru為客戶提供單控制臺(tái)體驗(yàn),通過(guò)匯總多個(gè)來(lái)源(例如Amazon CloudTrail, Amazon CloudWatch, Amazon Config, Amazon CloudFormation, Amazon X-Ray)的相關(guān)數(shù)據(jù)并可視化,免去在多個(gè)工具之間切換??蛻暨€可以在Amazon DevOps Guru控制臺(tái)中查看相關(guān)的運(yùn)營(yíng)事件和上下文數(shù)據(jù),并通過(guò)Amazon SNS接收警報(bào)。此外,Amazon DevOps Guru通過(guò)Amazon SDK支持API端點(diǎn),使得亞馬遜合作伙伴網(wǎng)絡(luò)成員和客戶可以輕松地將Amazon DevOps Guru集成到他們現(xiàn)有的解決方案中,用于故障單分級(jí)、尋呼和針對(duì)高嚴(yán)重性問(wèn)題的工程師自動(dòng)通知。PagerDuty和Atlassian是亞馬遜云科技的合作伙伴,已經(jīng)將Amazon DevOps Guru集成到他們的運(yùn)營(yíng)監(jiān)控和事件管理平臺(tái)中,使用該解決方案的客戶可以從Amazon DevOps Guru提供的運(yùn)營(yíng)見(jiàn)解中獲益。Amazon DevOps Guru現(xiàn)已在美國(guó)東部(弗吉尼亞北部)、美國(guó)東部(俄亥俄)、美國(guó)西部(俄勒岡)、亞太地區(qū)(新加坡)、亞太地區(qū)(悉尼)、亞太地區(qū)(東京)、歐洲(法蘭克福)、歐洲(愛(ài)爾蘭)和歐洲(斯德哥爾摩)區(qū)域正式推出,其他區(qū)域也將很快推出。
與Amazon CodeGuru服務(wù)一起,Amazon DevOps Guru為客戶帶來(lái)了面向其運(yùn)營(yíng)數(shù)據(jù)的機(jī)器學(xué)習(xí)自動(dòng)化優(yōu)勢(shì),讓開(kāi)發(fā)人員可以更輕松地提高應(yīng)用可用性和可靠性。Amazon CodeGuru是一個(gè)由機(jī)器學(xué)習(xí)驅(qū)動(dòng)的開(kāi)發(fā)工具,為提高代碼質(zhì)量和識(shí)別應(yīng)用程序最昂貴的代碼行提供智能建議。
Atlassian產(chǎn)品為超過(guò)19.4萬(wàn)家公司的團(tuán)隊(duì)服務(wù)以簡(jiǎn)化團(tuán)隊(duì)合作,幫助他們組織、討論和完成工作?!昂芨吲d看到我們的客戶正在使用Amazon DevOps Guru來(lái)管理他們?cè)茟?yīng)用的運(yùn)營(yíng)性能。”O(jiān)psgenie產(chǎn)品主管Emel Dogrusoz表示,“通過(guò)我們新的Opsgenie和Jira Service Management集成,當(dāng)Amazon DevOps Guru發(fā)現(xiàn)一個(gè)潛在問(wèn)題時(shí)會(huì)立即通知正確的團(tuán)隊(duì),并使用機(jī)器學(xué)習(xí)技術(shù)根據(jù)事件的嚴(yán)重程度對(duì)其進(jìn)行優(yōu)先級(jí)排序。這種集成確保團(tuán)隊(duì)都能快速響應(yīng),使用機(jī)器學(xué)習(xí)支持的建議解決問(wèn)題,從每一個(gè)事件中獲取經(jīng)驗(yàn)?!?/p>
Fidelity Investments幫助超過(guò)3500萬(wàn)人對(duì)他們最重要的財(cái)務(wù)目標(biāo)更具信心,管理超過(guò)22000家企業(yè)的員工福利計(jì)劃,并通過(guò)創(chuàng)新的投資和技術(shù)解決方案支持超過(guò)13500家金融機(jī)構(gòu)發(fā)展業(yè)務(wù)?!霸贔idelity,我們正利用云技術(shù)來(lái)增強(qiáng)我們的全球客戶體驗(yàn),并提高應(yīng)用程序的彈性?!盕idelity Investments公共云服務(wù)高級(jí)副總裁Keith Bliard表示,“像Amazon DevOps Guru這樣的AIOps工具幫助我們?yōu)榭蛻籼峁└咝У捏w驗(yàn)和更有彈性的平臺(tái)?!?/p>
PagerDuty, Inc.( NYSE:PD)是數(shù)字運(yùn)營(yíng)管理領(lǐng)域的領(lǐng)導(dǎo)者?!癙agerDuty很高興能進(jìn)一步深化與亞馬遜云科技的合作,與Amazon DevOps Guru進(jìn)行新的集成。PagerDuty的數(shù)字運(yùn)營(yíng)管理平臺(tái)是為了推動(dòng)DevOps文化的轉(zhuǎn)變而建立的,我們很高興能通過(guò)這次集成持續(xù)推進(jìn)這一承諾。”PagerDuty產(chǎn)品高級(jí)副總裁Jonathan Rende表示,“利用Amazon DevOps Guru的機(jī)器學(xué)習(xí)能力,PagerDuty為我們的客戶提供了更實(shí)時(shí)的‘信號(hào)->行動(dòng)’能力。通過(guò)Amazon DevOps Guru,PagerDuty獲取Amazon SNS,亞馬遜云科技客戶可以在運(yùn)營(yíng)問(wèn)題成為影響客戶的停機(jī)事件之前采取實(shí)時(shí)行動(dòng)?!?/p>
Thomson Reuters是全球最受信賴的資訊提供商之一,幫助專業(yè)人士做出自信的決定,更好地經(jīng)營(yíng)企業(yè)?!翱蛻趔w驗(yàn)和滿意度是我們的首要任務(wù)。當(dāng)接收到多個(gè)警報(bào)和監(jiān)測(cè)事件源時(shí),從噪聲中篩選識(shí)別客戶影響事件是一項(xiàng)挑戰(zhàn)和耗時(shí)的工作。”Thomson Reuters站點(diǎn)可靠性和云部門總監(jiān)Steve Thoennes表示,“有了Amazon DevOps Guru,我們能夠利用其機(jī)器學(xué)習(xí)驅(qū)動(dòng)的洞察力,為行動(dòng)提供清晰的路徑,以減少甚至在許多情況下消除問(wèn)題對(duì)我們客戶的影響。Amazon DevOps Guru與PagerDuty的集成也提供了一條直接路徑,可以在正確的時(shí)間將建議快速有效地傳遞給正確的人。我們預(yù)計(jì)這將顯著減少運(yùn)營(yíng)停機(jī)時(shí)間?!?/p>