omniture

才云@KubeCon 中國首秀:勾畫云原生“未來式”

2018-11-16 23:29 9019
2018年11月13日,代表 Kubernetes?技術(shù)領(lǐng)域較高峰會的 KubeCon + CloudNativeCon China 2018 在上海拉開帷幕,這是才云 Caicloud?第五次深度參與 KubeCon。

杭州2018年11月16日電 /美通社/ -- 2018年11月13日,代表 Kubernetes 技術(shù)領(lǐng)域較高峰會的 KubeCon + CloudNativeCon China 2018 在上海拉開帷幕,參與人數(shù)逾 2500 人。這是 KubeCon 盛會首次登陸中國,也是才云 Caicloud 第五次深度參與 KubeCon。

大會頭圖
大會頭圖

 

Keynote:《如何基于 Kubeflow 讓國家電網(wǎng)變得更加智能》

在11月15日 Keynote 演講中,才云 COO 韓佳瑤博士和才云 CEO 張鑫博士帶來了《如何基于 Kubeflow 讓國家電網(wǎng)變得更加智能》演講,分享了才云對于新一代 AI 類型業(yè)務(wù)在國家電網(wǎng)眾多生產(chǎn)環(huán)節(jié)場景落地中存在的挑戰(zhàn)和解決辦法。演講中提到在現(xiàn)今中國激烈的數(shù)字化轉(zhuǎn)型市場競爭環(huán)境下,企業(yè)在 AI 類應(yīng)用和服務(wù)落地實踐中正面臨巨大挑戰(zhàn)。

傳統(tǒng)的方式即依托于第三方算法公司進行黑盒算法模型開發(fā),無論對企業(yè)維持自身競爭壁壘提高轉(zhuǎn)型效率,還是打破算法科學(xué)家 VS 軟件尤其是底層與平臺工程之間(model developers vs. system admins)的屏障上而言都將變得越來越不可持續(xù)。演講提到,我們對于 CPU 資源分配、調(diào)度、管理和 Java 類應(yīng)用的管理早已進入云原生時代,但對于新型 GPU、AI 類業(yè)務(wù)和軟件的資源調(diào)配和管理方式還停留在“史前時代”。

演講繼續(xù)介紹了才云 Caicloud 容器智能云平臺(Caicloud Compass + Caicloud Clever)整體架構(gòu)和工程設(shè)計方案是如何為國網(wǎng)電力實現(xiàn)從底層到 PaaS 一系列資源環(huán)境和工具模塊的協(xié)同從而為最終上層多樣 AI 模型和業(yè)務(wù) Pipeline 進行服務(wù)。

 

Session talk:《從終端用戶角度剖析 Kubeflow 現(xiàn)狀之利弊》

15 日下午在 Room 1 ML 專場的 Session talk 中,才云 CEO 張鑫博士和才云 CTO 鄧德源聯(lián)袂帶來《從終端用戶角度剖析 Kubeflow 現(xiàn)狀之利弊》。以谷歌 AI 負責人 Andrew Moore 的觀點 “AI 并不是企業(yè)的華麗魔法,AI 落地任重道遠”為開場,張鑫介紹了 Kubeflow 項目的使命,是作為搭載在 Kubernetes 之上的可移植、可擴展、可組建的機器學(xué)習(xí)棧。對 AI、機器學(xué)習(xí)應(yīng)用能真正在生產(chǎn)上落地這一目標而言,僅有 ML 層面的模型和算法尚不足以滿足這個需求。

盡管外界對 Kubeflow 充滿極大期待和興趣,但目前的 Kubeflow 還遠不是銀彈。通過和數(shù)十個企業(yè)客戶的調(diào)研,張鑫提到目前 Kubeflow 存在如下問題:

  • Kubeflow 缺少服務(wù)多模型訓(xùn)練被按次序來觸發(fā)調(diào)度同一塊 GPU 的機制;
  • 缺少任務(wù)的資源限制和資源分配的機制;監(jiān)督式學(xué)習(xí)訓(xùn)練缺少數(shù)據(jù)處理(包括打標、數(shù)據(jù)清洗等)機制;
  • 缺少對訓(xùn)練過程中數(shù)據(jù)錄入、訓(xùn)練、測試、通過、再訓(xùn)練這整個流程的持續(xù)集成、持續(xù)發(fā)布機制從而使得模型本身無法保持最新狀態(tài);
  • 缺乏“模型倉庫”來做不同模型之間的跟蹤、比對、切換;以及 Kubeflow 缺乏一些內(nèi)置可部署的業(yè)已經(jīng)典的但可調(diào)試參數(shù)的模型;
  • 缺乏多個模型并行訓(xùn)練的機制;
  • 缺乏對單個模型調(diào)參的機制等。

在張鑫和鄧德源看來,所有目前 Kubeflow 所缺乏之種種都是阻礙企業(yè)和開發(fā)者真正將 AI 模型、應(yīng)用、軟件能迅速進行開發(fā)并上線生產(chǎn)的原因所在。他們繼續(xù)介紹了才云機器學(xué)習(xí)平臺 Caicloud Clever 是如何從數(shù)據(jù)管理、打標系統(tǒng)、批處理作業(yè)和可視化代碼編輯等環(huán)節(jié)來補齊 Kubeflow 現(xiàn)有尚存缺失的功能環(huán)節(jié)。他們表示,在不久的將來,才云將把這些功能盡力推向 Kubeflow 開源版本。

 

展示劇場(Demo Theatre):Caicloud Clever + Compass 

在11月14日下午的展示劇場活動中,才云 Caicloud 研發(fā)副總裁肖勤從中國當今企業(yè)需求出發(fā),以多年實戰(zhàn)經(jīng)驗闡述才云 Caicloud 產(chǎn)品為企業(yè)帶來的便利。Caicloud Compass 深度整合 Kubernetes,為用戶提供以多集群、多租戶為核心的資源管理能力;降低企業(yè)運維成本、時間成本,助力企業(yè)搭建功能完備、界面易用、性能卓越的容器平臺。

從企業(yè)角度來看,容器化改造對于關(guān)鍵的業(yè)務(wù)交付效率、基礎(chǔ)設(shè)施資源利用率普遍會帶來很好的收益,尤其是對交付效率和資源成本更為關(guān)注的輕資產(chǎn)型業(yè)務(wù),這也是為何容器技術(shù)得到廣泛關(guān)注與應(yīng)用的主要原因。而相對而言,容器化改造所帶來的問題則可以通過引入一些工具與服務(wù)進行解決,比如在 Caicloud Clever 產(chǎn)品中,開源出來的云原生 CI/CD 引擎,可更好地優(yōu)化企業(yè)場景,支持 AI 工作流。

 

Session talk:《對 Kubeflow 上的機器學(xué)習(xí)工作負載做基準測試》

機器學(xué)習(xí)、模型訓(xùn)練處于人工智能革命的前沿,我們相信機器學(xué)習(xí)將帶領(lǐng)我們進入通用 AI 時代。當 Kubernetes 與機器學(xué)習(xí)相遇,又會擦出什么樣的火花呢?我們知道在機器學(xué)習(xí)中,可預(yù)測性最為關(guān)鍵,只有更為精準的預(yù)測性才能讓 Kubernetes+AI 操作絲毫不差。

此次,才云 Caicloud 工程師高策與 Cisco 高級工程師黃昕元聯(lián)手,以《對 Kubeflow 上的機器學(xué)習(xí)工作負載做基準測試》為題,通過 TF CNN 基準測試工具為我們實際介紹了在機器學(xué)習(xí)中引入 Kubernetes  對于訓(xùn)練速度的影響以及在 Kubernetes 上的 ML 工作量的性能特征。

演講人高策提到“證明在 Kubernetes 上運行機器學(xué)習(xí)或者深度學(xué)習(xí)的工作負載,由虛擬化引入的在模型訓(xùn)練速度 overhead 可以接受”進一步證明了 Kubeflow 在生產(chǎn)環(huán)境使用的可能性。

 

才云 Caicloud 乘風(fēng)破浪,倍道而進

在本次大會中,才云對云計算和智能云平臺落地方案多次發(fā)聲。在一份 2017 年來自美國各行各業(yè)共 201 家企業(yè) IT 決策者的容器部署調(diào)研報告中,90% 的受訪者表示,與虛擬機相比,Kubernetes 具有可擴展性優(yōu)勢,近 75% 的公司正在使用 Kubernetes。如今在中國,利用 Kubernetes 編排也已成大趨勢作為國內(nèi)較早期 Kubernetes + ML 的實踐者,才云 Caicloud 將為推動中國云原生、智能應(yīng)用云原生化繼續(xù)砥礪前行。

消息來源:杭州才云科技有限公司
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection