omniture

云數(shù)據(jù)倉庫先驅(qū)Amazon Redshift:十年云上重塑之旅

亞馬遜云科技
2022-11-04 10:42 3005

PB級云數(shù)據(jù)倉庫服務Amazon Redshift發(fā)布近十年之際,Amazon Science采訪了亞馬遜云科技數(shù)據(jù)分析副總裁Rahul Pathak和亞馬遜云科技高級首席工程師Ippokratis Pandis,他們分享了Amazon Redshift的起源、過去近十年的成長及其未來展望。

北京2022年11月4日 /美通社/ -- 十年前,時任亞馬遜云科技高級副總裁的Andy Jassy(現(xiàn)任Amazon CEO)在首屆亞馬遜云科技re:Invent大會上宣布推出Amazon Redshift預覽版。與昂貴、缺乏彈性并需要投入大量的運營人力和資金的傳統(tǒng)本地數(shù)據(jù)倉庫解決方案相比,Amazon Redshift有了質(zhì)的飛躍。

亞馬遜首席技術(shù)官Werner Vogels在2012年11月28日的博文里表示:"我們很高興推出了Amazon Redshift預覽版,這是一個高性能、全托管的PB級云數(shù)倉服務。該服務的性能將顯著提升客戶的數(shù)據(jù)分析效率。Amazon.com的數(shù)據(jù)倉庫團隊一直在試用Amazon Redshift,他們對規(guī)模高達20億行的數(shù)據(jù)集進行了一系列的典型查詢,并將Amazon Redshift與本地數(shù)據(jù)倉庫進行比較,結(jié)果顯示Amazon Redshift將速度提高了10-150倍!"

這也是為何當時還是高級產(chǎn)品經(jīng)理的Rahul Pathak以及整個Amazon Redshift團隊,在該服務宣布推出之日充滿信心。Rahul Pathak現(xiàn)任亞馬遜云科技數(shù)據(jù)分析副總裁,他回憶:"我們沒料到的是它會這么受客戶歡迎。在提供預覽版時,我們先讓客戶注冊,了解他們的數(shù)據(jù)量和工作負載。約三天左右,我們就發(fā)現(xiàn)客戶對Amazon Redshift的需求量比原先預計的整年需求量還多10倍。于是,我們在re:Invent一結(jié)束就迅速增加硬件訂單,以確保在2013年初Amazon Redshift正式可用時能有充足的數(shù)據(jù)中心硬件支持。還好提前提供了預覽版,否則我們將應接不暇。"

從那時起,Amazon Redshift團隊一直加緊創(chuàng)新,滿足客戶不斷增長的各種需求。如今,數(shù)以萬計的客戶每天使用Amazon Redshift處理EB級的數(shù)據(jù),為高性能商業(yè)智能(BI)報告、儀表板應用程序、數(shù)據(jù)探索和實時分析等分析工作負載提供支持。

關于Redshift的起源

Rahul在Amazon Redshift推出的前幾年,我們的很多客戶就已經(jīng)把除了數(shù)據(jù)倉庫之外的所有工作負載遷移到了云端。數(shù)據(jù)倉庫常常是客戶在企業(yè)本地運行的最后一個應用,而且他們?nèi)悦媾R如成本高昂、帶有懲罰性質(zhì)的許可費、難以擴展,并且無法分析所有數(shù)據(jù)等重重挑戰(zhàn)??蛻舻脑V求之一便是希望在云中大規(guī)模地運行具備足夠性價比的數(shù)據(jù)倉庫來分析所有數(shù)據(jù),同時兼顧性能。

隨后,我們開始著手構(gòu)建、運營一個代號為Cookie Monster的全新項目。當時,客戶數(shù)據(jù)量正在爆炸式增長,這些數(shù)據(jù)不僅來自關系型數(shù)據(jù)庫,還包括各種各樣的數(shù)據(jù)源??蛻粼囉昧薘edshift的一個早期測試版,發(fā)現(xiàn)結(jié)果返回速度快得驚人,比他們之前使用的系統(tǒng)快了10到20倍,以至于他們還以為系統(tǒng)出現(xiàn)了問題。當然,我們也收到一些客戶對某些早期功能不滿意的反饋。我們及時與這些客戶取得聯(lián)系,了解他們面臨的挑戰(zhàn)、反饋,并在2013年2月該服務正式上線之前進行了調(diào)整。

當我們推出Amazon Redshift,并宣布定價為每年1000美元/TB時,人們簡直不敢相信我們推出了一個性價比如此之高的服務。我們在幾分鐘內(nèi)而不是幾個月就能為客戶提供一個數(shù)據(jù)倉庫,這吸引了所有人的關注,被業(yè)界稱為一個真正的游戲規(guī)則改變者。

Ippokratis:當時,我在IBM研究院從事數(shù)據(jù)庫技術(shù)工作,我們意識到,以云服務的方式提供數(shù)據(jù)倉庫將顛覆游戲規(guī)則。使用客戶的本地系統(tǒng)通常需要幾天或幾周時間才能解決的問題,使用像Redshift這樣的云數(shù)據(jù)倉庫則只需要幾分鐘,應用云服務明顯加快了創(chuàng)新的速度。

就傳統(tǒng)的本地數(shù)據(jù)倉庫而言,通常需要花費幾個月甚至幾年時間才能將新功能更新到最新的軟件版本中;而在云端,新功能可以在幾周內(nèi)推出,客戶無需改變其應用程序中的任何一行代碼。Amazon Redshift的發(fā)布是一個拐點,讓我對云和云數(shù)據(jù)倉庫產(chǎn)生了真正的興趣,并選擇加入了亞馬遜云科技。[Ippokratis于2015年10月作為首席工程師加入Amazon Redshift團隊]。

關于Amazon Redshift在過去的十年中的發(fā)展

Ippokratis為了滿足客戶的需求,Amazon Redshift已進入快速迭代過程。我們主要聚焦四個維度:1)滿足客戶高效處理日益復雜的分析查詢的需求;2)客戶需要處理更多數(shù)據(jù),需要從數(shù)據(jù)中獲得洞察的用戶數(shù)量也大幅增長;3)客戶需要更易于操作的系統(tǒng);4)客戶希望將Amazon Redshift與亞馬遜云科技其他服務進行集成。

Amazon Redshift從誕生之日起,我們就致力于讓它能為客戶提供卓越的的高性價比。團隊從一開始,就專注于盡最大可能降低核心查詢執(zhí)行延遲,以便系統(tǒng)能夠響應更多作業(yè)請求,客戶能夠運行更多工作負載,并支持日常分析。為此,Amazon Redshift生成高度優(yōu)化的C++代碼,然后將其發(fā)送到并行數(shù)據(jù)庫中的分發(fā)器,并執(zhí)行這些高度優(yōu)化的代碼。這種方法讓Amazon Redshift在查詢執(zhí)行方式上獨樹一幟,也使它一直成為服務的核心。

我們從來沒有停止過創(chuàng)新,一直竭力為客戶提更好的性能。另一個讓我感興趣的點是,客戶在傳統(tǒng)商業(yè)智能中,通常會為需要長時間運行的作業(yè)進行系統(tǒng)優(yōu)化。但當我們從深入分析客戶行為時,我們發(fā)現(xiàn)在每天運行的數(shù)十億次查詢中,90%的查詢執(zhí)行時間不到一秒。這一驚人發(fā)現(xiàn)打破了人們對數(shù)據(jù)倉庫期望的傳統(tǒng)認知,同時也改變了我們著力優(yōu)化的代碼方向。

Rahul正如Ippokratis提到的,客戶需要處理更多的數(shù)據(jù),并使用這些數(shù)據(jù)為整個組織挖掘數(shù)據(jù)價值,這是我們重點關注的第二個方向。數(shù)據(jù)分析一直非常重要,但在八或十年前,卻不一定是客戶的關鍵任務應用?,F(xiàn)在,這種情況已經(jīng)改變,企業(yè)核心業(yè)務流程依賴于Amazon Redshift的高可用性和高性能。過去十年中,為支持這一目標,Amazon Redshift在架構(gòu)上最大的變化是引入Redshift Managed Storage (RMS),將計算和存儲分離,并聚焦各自領域,大舉創(chuàng)新。

RMS支持跨多個可用區(qū),具有99.999999999%的耐久性和99.99%的可用性。RMS既管理用戶數(shù)據(jù),也管理交易元數(shù)據(jù)。

另一個重大趨勢是客戶希望在不同的數(shù)據(jù)集之間進行查詢和整合。我們在2017年推出了Redshift Spectrum,讓Amazon Redshift成為云中第一個支持查詢Amazon S3數(shù)據(jù)的數(shù)據(jù)倉庫。之后Amazon Redshift運行查詢的能力也得到進一步證實,該服務能夠掃描Amazon S3以及集群中EB級的數(shù)據(jù)進行查詢。這是另一個改變游戲規(guī)則的重要時刻。

像納斯達克這樣的客戶已經(jīng)廣泛使用這種方式來查詢本地磁盤上的數(shù)據(jù),獲得最高的性能,同時利用Amazon Redshift與數(shù)據(jù)湖的完美集成,實現(xiàn)對整個歷史數(shù)據(jù)的高性能查詢。除了查詢數(shù)據(jù)湖,Amazon Redshift還支持對Amazon Aurora和Amazon RDS等交易型數(shù)據(jù)存儲的綜合查詢,這也是一大創(chuàng)新??蛻粽嬲饬x上擁有一個高性能的分析系統(tǒng),能夠查詢所有重要數(shù)據(jù),無需像其他系統(tǒng)那樣管理復雜的集成過程。

Ippokratis: 易用性是我們關注的第三個方向。傳統(tǒng)本地數(shù)據(jù)倉庫需要企業(yè)IT部門配備專門的數(shù)據(jù)庫管理員。過去十年中,客戶期望已經(jīng)發(fā)生了變化?,F(xiàn)在,如果把數(shù)據(jù)倉庫作為一種服務來提供,系統(tǒng)必須能夠自動調(diào)整、修復和優(yōu)化。這已經(jīng)成為我們關注的一個重要領域,通過將機器學習和自動化納入系統(tǒng),增強易用性,減少管理員的工作量。

Rahul在易用性方面,我想到了三個創(chuàng)新。第一是并發(fā)擴展。與工作負載管理類似,客戶以前必須手動調(diào)整并發(fā),或重置手動分割的工作負載集群。現(xiàn)在,系統(tǒng)會自動部署新的資源,自動伸縮,客戶無需采取任何行動。

第二是自動表優(yōu)化功能。系統(tǒng)能夠通過查看工作負載和數(shù)據(jù)布局,并自動建議數(shù)據(jù)應該如何在集群節(jié)點中排序和分布。這個優(yōu)化是一個不斷學習的過程,它能夠持續(xù)根據(jù)工作負載的變化進行調(diào)整,這是一個非常厲害的功能。

客戶總是在增加更多數(shù)據(jù)集和更多用戶,昨天的最優(yōu)選到明天可能就不復存在了。Amazon Redshift可以自動識別,并根據(jù)數(shù)據(jù)存儲進行調(diào)優(yōu)。關于如何分析數(shù)據(jù)在多節(jié)點并行處理系統(tǒng)中的最佳分布鍵,這是個非常有趣的話題,我們在幾年前發(fā)布的一篇圖優(yōu)化論文中專門進行了分析。我們對最佳分布鍵進行了自動優(yōu)化,并加入了對數(shù)據(jù)壓縮編碼的處理。在一個分析系統(tǒng)中,如何壓縮數(shù)據(jù)對結(jié)果有很大影響,因為掃描的數(shù)據(jù)越少,查詢就越快。過去,客戶必須自己決定選擇什么樣的壓縮編碼格式?,F(xiàn)在,Amazon Redshift可以自動確定如何正確編碼數(shù)據(jù),為數(shù)據(jù)和工作負載提供盡可能高的性能。

第三個創(chuàng)新是去年re:Invent上推出的Amazon Redshift Serverless。Redshift Serverless可在幾秒鐘內(nèi)自動設置和擴展資源,讓客戶無需管理數(shù)據(jù)倉庫集群,即可以為PB級數(shù)據(jù)規(guī)模運行高性能分析工作負載,更輕松地從數(shù)據(jù)中快速獲取洞察。通過Redshift Serverless,客戶只需要配置一個endpoint即可與他們的數(shù)據(jù)進行互動,Redshift Serverless將自動擴展并自動管理系統(tǒng),從根本上消除了復雜性。

客戶可以只關注他們的數(shù)據(jù),設置限制參數(shù)來管理預算,我們可在設定好的限制條件之下提供最佳性能。這是在易用性方面取得的另一個巨大進步,因為它無需客戶進行任何操作。就目前客戶對Redshift Serverless預覽版的反饋來看,客戶對該服務的表現(xiàn)非常滿意。我們也很高興推出了Amazon Redshift Serverless正式可用版本。

Ippokratis: 第四個重點是與其他亞馬遜云科技服務的集成。集成是客戶的使用行為從傳統(tǒng)BI向前進化的重要方向。如今,云數(shù)據(jù)倉庫是一個中心樞紐,與廣泛的亞馬遜云科技服務緊密集成。首先,我們?yōu)榭蛻籼峁┝藢?shù)據(jù)倉庫中的數(shù)據(jù)與數(shù)據(jù)湖連接起來的能力。之后,客戶表示需要訪問Amazon AuroraAmazon RDS等運營數(shù)據(jù)庫中的高速業(yè)務數(shù)據(jù),于是,Amazon Redshift增加了對OLTP交易數(shù)據(jù)庫的訪問支持。然后,我們增加了對流數(shù)據(jù)的支持,以及與Amazon SageMakerAmazon Lambda的集成,客戶就可以在不移動數(shù)據(jù)的情況下運行機器學習訓練和推理,并進行通用計算。很明顯,我們已經(jīng)從傳統(tǒng)BI系統(tǒng)轉(zhuǎn)化成為深度集成的一組亞馬遜云科技服務。

Rahul集成的另一個重要方面是與機器學習服務。通過Redshift ML,數(shù)據(jù)分析師和數(shù)據(jù)庫開發(fā)人員可以在Amazon Redshift中使用熟悉的 SQL 命令輕松創(chuàng)建、訓練和應用機器學習模型。我們構(gòu)建了從SQL語言創(chuàng)建模型的能力,它將數(shù)據(jù)攝取到Amazon S3并調(diào)用Amazon SageMaker,使用自動機器學習建立最合適的模型,并基于數(shù)據(jù)提供預測。

模型經(jīng)高效編譯并返回數(shù)據(jù)倉庫,讓客戶無需額外的計算和成本,即可運行高性能推理。這種集成的優(yōu)勢在于,Amazon SageMaker中的每一次創(chuàng)新也就意味著Redshift ML變得更好。這是客戶可以從我們的服務集成中受益的另一種方式。

集成的另一個重要的方向是Data Sharing。一旦使用 RA3 實例,將計算和存儲層分離,就可以打開Data Sharing,讓客戶有能力與同一賬戶、其他賬戶、或者跨區(qū)域的集群共享數(shù)據(jù)。這意味著可以將數(shù)據(jù)消費者和生產(chǎn)者分開,實現(xiàn)現(xiàn)代化的數(shù)據(jù)網(wǎng)格等等架構(gòu)上的創(chuàng)新??蛻艨梢栽诓粡椭茢?shù)據(jù)的情況下分享數(shù)據(jù),從而達成不同賬戶間的數(shù)據(jù)一致性。

例如,數(shù)據(jù)科學家組別的用戶可以安全地在共享數(shù)據(jù)中工作,報表或營銷組的用戶也可以。我們還將Data Sharing與Amazon Data Exchange整合在一起,客戶可以搜索并訂閱最新的第三方數(shù)據(jù)集,并在Amazon Redshift中立即進行查詢。從釋放數(shù)據(jù)潛能的角度來看,這種整合再次改變了游戲規(guī)則,幫助第三方供應商數(shù)據(jù)變現(xiàn),更為用戶提供安全、實時的數(shù)據(jù)訪問和許可,方便在內(nèi)部和跨組織進行高性能分析。Amazon Redshift是一個極其豐富的數(shù)據(jù)生態(tài)系統(tǒng)的一部分,這是一個巨大的優(yōu)勢,能滿足客戶在公司的各個組織之間更方便的提供/獲取數(shù)據(jù)的需求。

展望Redshift及云數(shù)據(jù)倉庫的發(fā)展前景

Rahul未來,客戶將產(chǎn)生越來越多的數(shù)據(jù),他們希望更經(jīng)濟高效地分析這些數(shù)據(jù)。雖然數(shù)據(jù)量呈現(xiàn)指數(shù)級增長,但很顯然,客戶并不希望他們的成本也以指數(shù)級增長。這就要求我們繼續(xù)創(chuàng)新,進一步提升性能以確保單位數(shù)據(jù)處理成本持續(xù)下降。

我們將繼續(xù)在軟件、硬件、芯片和機器學習應用等方面進行創(chuàng)新。在過去的10年中,我們已經(jīng)兌現(xiàn)了這一承諾,今后亦將如此。 

我非常自豪于我們團隊目前取得的諸多成就,同時,我也同樣對我們正在執(zhí)著努力的事業(yè)而熱血沸騰。

客戶總是希望擁有更好的可用性,希望他們的數(shù)據(jù)是安全的以及與更多數(shù)據(jù)源整合的可能性,我們也計劃繼續(xù)圍繞這些方向優(yōu)化服務體驗。可以確定的是,我們有能力提供極具高性價比、深度集成和安全可靠的服務,幫助客戶創(chuàng)造更多價值。

Ippokratis: 這是一段不可思議的旅程。我們一直在與客戶一路前行,不斷重構(gòu)。這背后離不開亞馬遜云科技領導團隊的支持,但更重要的是團隊中出色的工程師、經(jīng)理和產(chǎn)品團隊,他們讓一切成為可能。

消息來源:亞馬遜云科技
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection