新一代智能視頻云發(fā)展現(xiàn)狀分析：五大要素成關鍵

七牛云

2018-07-27 15:23 9451

近日，由Gartner和七牛云聯(lián)合發(fā)布了一份《Five Key Essentials for the New Generation of Intelligent Video Cloud》白皮書報告。

上海2018年7月27日電 /美通社/ -- 近日，由 Gartner 和七牛云聯(lián)合發(fā)布了一份《Five Key Essentials for the New Generation of Intelligent Video Cloud》白皮書報告，報告中針對各行業(yè)在視頻應用領域升級過程中面臨的技術痛點及挑戰(zhàn)，提出了構建新一代視頻云的5個關鍵要素和相關參考標準，并描述了智能視頻云如何以更便捷的服務和更低的成本幫助客戶加速升級。本文則對 Gartner 和七牛云的白皮書報告進行了詳細編譯。

以下為譯文：

一、導語

過去十年里，中國移動互聯(lián)網(wǎng)的高速發(fā)展，帶動了各個產(chǎn)業(yè)IT基礎架構的擴展和升級：

2017年，大陸地區(qū)用戶平均帶寬達到52M，已經(jīng)追平甚至超越了許多發(fā)達國家水平；

移動互聯(lián)網(wǎng)終端數(shù)超過14億臺，其中超過60%的設備接入了4G網(wǎng)絡；

5G時代也即將到來，視頻的內(nèi)容和展現(xiàn)形式將更加多元化，在直播、點播等基礎場景上，又增加了短視頻和實時音視頻互動的新浪潮，同時視頻技術也在安防、醫(yī)療、教育、司法、廣電等領域有著全新的應用。

本文介紹各行業(yè)在視頻應用領域的升級過程中，主要面臨的技術痛點和挑戰(zhàn)，并提出了構建新一代視頻云的5個關鍵要素和相關參考標準，描述了智能視頻云如何以更便捷的服務和更低的成本幫助客戶加速升級。未來視頻的應用的場景和領域可能會成為企業(yè)產(chǎn)品或營銷服務中核心的環(huán)節(jié)，而且它本身的規(guī)模變化也非常符合互聯(lián)網(wǎng)中的馬太效應，因此企業(yè)都需要提前為自己未來海量的富媒體素材做好充分準備，避免數(shù)據(jù)失控。

二、各行業(yè)在視頻時代的新興場景

1、安防監(jiān)控

根據(jù) Markets&Markets 的調(diào)查結(jié)果，2017年至2022年期間，全球監(jiān)控視頻市場年復合增長率將達15.4%，2022年將增至約756億美元的規(guī)模。視頻監(jiān)控廣泛應用于各類場合，包括：

道路交通監(jiān)控
城市安全監(jiān)控
公共區(qū)域監(jiān)控
家庭安防監(jiān)控

最近兩年來，以幼兒園、學校代表的公共區(qū)域場所監(jiān)控提出了更高的要求：

過去無需外網(wǎng)訪問的監(jiān)控，現(xiàn)在需要做到全網(wǎng)實時觀看；
過去無需長期儲存監(jiān)控畫面，現(xiàn)在需要做到可隨時查閱、長期存檔。

而道路交通和城市安全的監(jiān)控，除了傳統(tǒng)的車輛違章監(jiān)控和識別，行人的違章也逐步納入到了監(jiān)控的體系中，如：

智能識別畫面中行人的違章行為；
實時識別人臉信息，快速確定違章行人身份；
自動錄制違章畫面，保存證據(jù)，上傳至云端保存。

由此可以看到，視頻監(jiān)控領域正在面臨著產(chǎn)業(yè)升級，如何做到公網(wǎng)穩(wěn)定地訪問，產(chǎn)生的海量的圖像和視頻數(shù)據(jù)如何更好地存儲、分析和檢索，是一項巨大的挑戰(zhàn)。

2、在線教育

近年來，在線教育發(fā)展異?；馃幔没ヂ?lián)網(wǎng)音視頻技術，解決了優(yōu)質(zhì)教育資源傳遞的時空限制，主要體現(xiàn)形式如下：

直播課堂：直播授課，講師可以更自然地提供在線輔導；
實時互動：低延時音視頻傳輸，幫助教師實現(xiàn)和學生的實時在線交流；搭配使用聊天室功能：文字、語音、圖片、包括自定義消息等，有效地提升了課堂氛圍；
點播回放：通過云端錄制以及在線回放，學生可以隨時查看錄播視頻，對知識點進行查缺補漏，加深對知識的理解。

如何解決學生觀看直播的卡頓問題，如何進一步降低視頻互動的延時，提高老師和學生的體驗，顯得至關重要。另外，隨著人工智能的發(fā)展，視頻技術如何更好地借助 AI 技術，也成為在線教育領域大家更為關注的方向，如：

智能視頻標簽：根據(jù)學生上課狀態(tài)，設置獎杯、小紅花等獎勵元素，截屏記錄孩子優(yōu)秀表現(xiàn)的狀態(tài)，并保存，集錦視頻分享給家長；
智能視頻推薦：智能推薦適合學生的學習內(nèi)容，包括教學視頻、講義、習題及習題講解、測試題等。

3、廣電新媒體

隨著互聯(lián)網(wǎng)直播興起，各類廣電平臺想要做出一檔可看且互動性強的直播節(jié)目，除了要精心編排節(jié)目內(nèi)容，還要特別重視音視頻及互動方式的呈現(xiàn)。顯然，在新媒體時代下，傳統(tǒng)的廣電方案具有一定的局限性：

傳統(tǒng)廣電接入互聯(lián)網(wǎng)，既要混編傳統(tǒng)的音視頻流，又要混編 PPT 文檔共享等新興數(shù)據(jù)流，保證多路畫面實時切換；
采用專屬線路傳輸，三網(wǎng)合一方案進展緩慢；
分辨率與碼率較低，難以滿足日漸普及的4K電視需求；
線性播出，內(nèi)容無法回放，互動形式較為單一；
缺乏對視頻內(nèi)容的分析能力，僅能通過固定群體樣本，推斷出收視率等較為粗放的參考數(shù)據(jù)。

面對這些局限，廣電行業(yè)迫切需要全新的視頻系統(tǒng)，為消費者提供高畫質(zhì)、強互動的視頻娛樂體驗和可量化的精確數(shù)據(jù)管理：

在直播導播方面，云端進行音畫混編服務，并在云端切換視頻，快速形成導播效果；
在媒資管理方面，可對圖像、視頻進行智能拆條、智能審核和智能編目等，實現(xiàn)內(nèi)容匯聚的生產(chǎn)、審核、管理等全套環(huán)節(jié)的智能處理，極大提升內(nèi)容制作效率；
在內(nèi)容運營方面，利用大數(shù)據(jù)能力和算法，實現(xiàn)用戶行為數(shù)據(jù)標簽管理，實現(xiàn)內(nèi)容與廣告的千家千面投放，提升廣告價值；
在終端播放方面，傳輸層基于寬帶網(wǎng)絡的4K超高清視頻傳輸，保證電視畫面的自定義時移、回看，開放場景下的也可跨屏互動、多屏互通，提升終端用戶和電視交互的便捷性和趣味性。

如何實現(xiàn)導播內(nèi)容的實時切換，如何保證廣電內(nèi)容實時傳輸，如何讓廣電傳媒的廣告價值較大化，如何制作低成本、高質(zhì)量的節(jié)目，這對廣電新媒體來說均是急需解決的難題。

4、智慧法庭

2016年7月1日起，較高人民法院所有公開開庭案件均有網(wǎng)上直播，所有直播視頻均有視頻存檔，公眾可在線觀看。截至2018年3月，全國范圍內(nèi)的庭審直播共累計66萬余場，累計訪問近50億人次。智慧法庭充分運用互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、人工智能等先進信息技術，支持全業(yè)務網(wǎng)上辦理、全流程依法公開、全方位智能服務：

基于視頻及文書，結(jié)合人工智能計算機視覺技術，讀取、分析電子化卷宗，抓取重要因素，并分類標注。例如把犯罪動機、犯罪時間、犯罪工具等 -- 以不同顏色打上標簽，并予以比對分析。

建設智慧法庭，如何保障開庭審訊直播視頻的實時傳輸，如何存儲海量直播視頻用于點播回放，如何基于廣泛的視頻內(nèi)容進行智能分析，對視頻基礎設施的可靠性提出了更高的要求和挑戰(zhàn)。

5、遠程醫(yī)療

當前醫(yī)療資源還存在著地區(qū)分布不均問題，醫(yī)療專家可以通過在線直播、實時音視頻進行跨區(qū)域互動會診：

臨床交互式會診：利用視頻會議系統(tǒng)，患者可以和醫(yī)生“面對面”的交流，醫(yī)生現(xiàn)場實時解答患者的各種問題；
遠程影像會診：患者通過主視頻與醫(yī)生交流，同時可通過視頻傳送病歷資料和數(shù)據(jù)，包括放射檢查影像、病理檢查圖像、心電圖、血壓圖、化驗單或保存的錄像等，還原線下會診真實場景；
遠程醫(yī)療培訓：通過遠程醫(yī)療培訓系統(tǒng)開展專題講座，傳授最新醫(yī)療信息和診療經(jīng)驗，現(xiàn)場解答各種疑難問題，幫助聽課醫(yī)生拓展診療思路，提高下級醫(yī)院整體從業(yè)水平。

遠程醫(yī)療這一概念被提出后，已經(jīng)被廣泛應用。但是，如何提高視頻傳輸性能，如何確保家庭、基層醫(yī)療機構和戶外應急的遠程醫(yī)療快速接入，是當前的遠程醫(yī)療業(yè)務系統(tǒng)面臨的主要挑戰(zhàn)。

從以上列舉的幾個行業(yè)新興場景可以看出，在產(chǎn)業(yè)升級的過程中，他們都面臨著巨大的技術和資源挑戰(zhàn)。大部分企業(yè)無法在短時間內(nèi)構建有效的相關視頻服務能力，因此如何選擇和利用公有云的相關視頻服務，快速滿足業(yè)務的升級需求，顯得至關重要。

三、智能視頻云的關鍵要素

為了滿足各行業(yè)在視頻時代新的需求和挑戰(zhàn)，智能視頻云至少需要擁有以下5個關鍵要素：

1、穩(wěn)定的網(wǎng)絡傳輸與分發(fā)：直播延遲不高于1s，互動延遲不高于150ms

2、可擴展的海量存儲服務：可以實現(xiàn)業(yè)務層無感知PB級擴容

3、云端媒體的編輯處理：可以在數(shù)秒內(nèi)創(chuàng)建獨立計算實例，執(zhí)行自定義媒體編輯操作

4、視頻內(nèi)容的智能分析：視頻內(nèi)容識別率高于95%

5、完備的權限控制：徹底杜絕非法拷貝，秒級封禁盜鏈流量

要素1：穩(wěn)定的網(wǎng)絡傳輸與分發(fā)：提供流暢的觀看體驗與低延遲的互動

內(nèi)容分發(fā)網(wǎng)絡（CDN）的優(yōu)化：在傳統(tǒng)CDN基礎上融合優(yōu)化，建立高質(zhì)量全球節(jié)點，實現(xiàn)直播、點播內(nèi)容的加速分發(fā)，進一步提供秒級首開、低延遲的視頻播放體驗。
實時流網(wǎng)絡（LiveNet）：針對復雜的網(wǎng)絡環(huán)境、高成本的跨運營商服務和邊遠地區(qū)基礎設施落后等客觀因素，基于全球節(jié)搭建全球化實時流網(wǎng)絡，采用軟件定義網(wǎng)絡的方式，動態(tài)制定線路組合并決策調(diào)度最優(yōu)線路。
具備完善的客戶端SDK：智能視頻云需要一整套含推流、短視頻、播放器等多種SDK開發(fā)套件，幫助用戶完成視頻的生產(chǎn)、編輯和消費，同時還能降低移動端應用的開發(fā)難度和時間成本。
利用最新的編解碼技術和傳輸協(xié)議，減少對傳輸網(wǎng)絡帶寬和質(zhì)量的要求，降低卡頓率，如P2P通信，H.265編解碼，QUIC協(xié)議等。
支持標準的WebRTC協(xié)議棧，降低端到端的延時，實現(xiàn)百毫秒級別的音視頻互動體驗。

要素2：可擴展的海量存儲服務：高可靠易擴展的數(shù)據(jù)安全保障

穩(wěn)健可靠的對象存儲：通過糾刪碼存儲、跨數(shù)據(jù)中心的副本冗余等技術手段，提供高達16個9的數(shù)據(jù)可靠性，保證每年服務不可用時間低于30s，確保存儲數(shù)據(jù)的超高可用性。
易擴展的技術架構：存儲系統(tǒng)支持動態(tài)擴充存儲節(jié)點，實現(xiàn)存儲需求的彈性收縮，保證PB級別的存儲內(nèi)容可動態(tài)擴容，確保業(yè)務系統(tǒng)聚焦業(yè)務增長，無后顧之憂。
利用邊緣計算和邊緣存儲：將運算和存儲分散在靠近數(shù)據(jù)源的近端設備中處理，無需把數(shù)據(jù)實時回傳云端處理，減少云平臺的工作量。大幅提高效率，降低延遲，成為云平臺的有效補充和和優(yōu)化。
支持低頻存儲特性：將擁有高吞吐量，較高持久性和較低訪問延遲的數(shù)據(jù)存儲在云端，極大降低海量存儲數(shù)據(jù)的企業(yè)運營成本，成本比常規(guī)方案降低60%，訪問延時可控制在50ms以內(nèi)。

要素3：端媒體的編輯處理：快捷多用途云端視頻編輯

快捷輕量化處理：視頻編輯的任務，本質(zhì)上是針對視頻文件的數(shù)據(jù)運算與處理，通過部署靈活的容器化平臺，視頻編輯時需要的物理資源利用率可從40%提高70%以上，發(fā)布效率提升5倍，突發(fā)業(yè)務實現(xiàn)秒級響應。
豐富的多媒體編輯能力：提供視頻轉(zhuǎn)碼、截圖、水印、旋轉(zhuǎn)、切片等多媒體數(shù)據(jù)處理服務，滿足直播、點播等多種實時節(jié)目制作場景，快速完成效果制作，輸出專業(yè)制播內(nèi)容。

要素4：視頻內(nèi)容的智能分析：結(jié)合人工智能發(fā)揮視頻數(shù)據(jù)的較大價值

智能多媒體內(nèi)容識別：通常包含內(nèi)容審核、OCR、場景識別、人臉識別、音視頻處理、圖片處理等豐富功能。同時，面對每天高速增長的數(shù)據(jù)處理請求，彈性擴縮容的內(nèi)容識別平臺能保障服務器免受巨大壓力。
深度學習平臺的數(shù)據(jù)整理：一個高性能的深度學習平臺框架可以輕松完成每日撰寫迭代訓練腳本、新數(shù)據(jù)的增刪和管理、增量學習和迭代學習、搭建半監(jiān)督打標系統(tǒng)、模型的比較和融合等工作，綜合下來，可以減少70%的重復勞動。
海量媒資知識庫體系由視頻結(jié)構化模塊，知識圖譜模塊和大數(shù)據(jù)檢索模塊三者組成。視頻結(jié)構化模塊完成對視頻中基礎元素和內(nèi)容的提取和整理，將線性的視頻解構成可以被碎片化使用的組件；知識圖譜用于將視頻結(jié)構化得到的事件、人物、物體、場景等信息的有序梳理，并以便于檢索和關聯(lián)的形式進行存儲和呈現(xiàn)；大數(shù)據(jù)檢索模塊在前兩者的基礎上，提供海量媒資內(nèi)容的高效檢索，可以根據(jù)人物特征、人臉特征、圖像特征、視頻特征及更復雜的組合結(jié)構，快速地提供視頻數(shù)據(jù)檢索服務。

要素5:完備的權限控制：杜絕非法拷貝與盜鏈

完備的防盜鏈機制：無論是直播還是點播，對視頻內(nèi)容的訪問，都需要有完備的防盜鏈機制，常見的防盜鏈方式有referer防盜鏈、時間戳防盜鏈、回源鑒權等多種，基本上能有效地降低盜鏈風險。同時視頻云還應當對突發(fā)性的盜鏈流量具有感知能力與報警機制，可以快速阻止盜鏈訪問。
可靠的DRM數(shù)字版權保護機制：除了防盜鏈，內(nèi)容的版權保護也是視頻云需要提供的能力。常見的方式是對上傳的視頻文件進行轉(zhuǎn)碼和加密，輸出加密后的視頻文件再進行網(wǎng)絡分發(fā)，由終端播放時再解密播放，這樣即可真正實現(xiàn)對內(nèi)容的版權保護，防止非法拷貝。

根據(jù)以上5個關鍵要素，七牛云認為一套完整的智能視頻云需要由以下模塊組成：

七牛智能視頻云

四、智能視頻云的成本優(yōu)勢：

智能視頻云不僅在技術能夠完全滿足各行業(yè)在視頻時代的新需求，相比自主研發(fā)，還能為企業(yè)大幅節(jié)省研發(fā)成本和運營成本。

自建系統(tǒng)VS智能視頻云成本

自建系統(tǒng)VS智能視頻云時間成本

面對高昂的成本，視頻云服務在提供了豐富產(chǎn)品的同時，還具有簡單易用、可彈性擴展、維護成本低的特點。智能視頻云服務通過提供通用且易于根據(jù)具體業(yè)務定制的技術系統(tǒng)，大大降低了行業(yè)應用的開發(fā)周期與成本開銷，同時視頻云的多個模塊均可私有或混合部署，在保障企業(yè)數(shù)據(jù)安全的同時，獲得和公有云一樣的穩(wěn)定性、可靠性和靈活性。

五：AI在智能視頻云的增值應用

在智能視頻云的技術和成本優(yōu)勢背后，人工智能，尤其是計算機視覺技術的深度應用發(fā)揮了巨大的作用。在七牛云整個智能視頻云系統(tǒng)中，計算機視覺技術在諸多環(huán)節(jié)取代了人工操作，極大地提高了視頻內(nèi)容處理的效率。通過完全不同于傳統(tǒng)數(shù)據(jù)分析的角度，實現(xiàn)了先前難以想象的數(shù)據(jù)分析應用。

1、視頻內(nèi)容識別：自動識別視頻畫面信息，從標簽庫中匹配對應標簽

作為計算機視覺基礎模型層中重要的幾項技術，人臉識別、物體識別、場景識別等技術在安防、廣電、教育等領域的眾多場景中有廣泛的應用場景。

例如在安防行業(yè)，擁有人臉識別、動作追蹤等功能的高清攝像頭，能根據(jù)監(jiān)控范圍內(nèi)人物的動作并判斷其行為，對具有可疑行為的人觸發(fā)自動報警。當智能攝像頭與公安部門的在逃嫌犯資料庫匹配之后，能在機場、火車站等人流密集場所配合警方識別可疑人員，大幅提升破案、抓捕效率。

2、視頻內(nèi)容結(jié)構化：可以像搜索文本文件一樣搜索視頻文件中的信息

計算機視覺視頻結(jié)構化相比人工標注具有識別范圍廣、準確性好、學習模型不斷迭代、GPU機器效率高、成本低等一系列明顯優(yōu)勢。經(jīng)標注后的視頻能夠在遠程醫(yī)療、在線教育、廣電等行業(yè)發(fā)揮巨大作用。

例如，遠程醫(yī)療行業(yè)擁有的存量和新增影像資料遠遠超出人工標注的能力范圍，想要發(fā)揮醫(yī)療視頻資料的較大價值，需要根據(jù)不同類別將視頻和圖片進行分類。通過人工智能高效完成視頻精確分類后，就能像搜索文本文件一樣搜索視頻文件中的關鍵信息，進行更有效的利用，真正將醫(yī)療大數(shù)據(jù)變?yōu)獒t(yī)療知識圖譜。

3、視頻內(nèi)容審核：從視頻中識別敏感信息，提升審核效率

如今，圖片和視頻取代文字成為主流的傳播方式，針對圖片和視頻的內(nèi)容審核正變得越來越重要。然而人工審核不僅會造成高企的人力成本，其效率和準確性也很難滿足當下巨大的視頻數(shù)據(jù)量帶來的審核需求。

例如在廣電行業(yè)，視頻內(nèi)容鑒黃、鑒暴恐、政治人物識別等工作過去均由人工完成。隨著計算機視覺技術的日漸成熟，利用機器代替人工進行絕大部份的內(nèi)容審核工作，成為了視頻時代的提高審核效率的不二之選。憑借計算機視覺技術帶來的審核效率革命，鑒黃、鑒暴恐、政治人物識別將不再是廣電行業(yè)的難題。

4、視頻內(nèi)容推薦：可根據(jù)用戶消費視頻習慣，實現(xiàn)精細化運營

除了能夠高效完成視頻結(jié)構化和內(nèi)容審核工作，計算機視覺技術還能在業(yè)務層面成為內(nèi)容運營的創(chuàng)新引擎，實現(xiàn)更多個性化產(chǎn)品需求。

同樣在廣電行業(yè)，例如在完成視頻內(nèi)容結(jié)構化之后，運營者可以根據(jù)用戶收看行為記錄進行智能內(nèi)容推薦，甚至在視頻的特定時間段和畫面的特定位置實現(xiàn)廣告定向投放，較大化提升廣告轉(zhuǎn)化效果。智能視頻內(nèi)容推薦能夠幫助內(nèi)容運營人員以較高效率實現(xiàn)高水平的用戶精細化運營。

六、借助靈活的智能視頻云從容面對未來產(chǎn)業(yè)升級的未知挑戰(zhàn)

未來，很少有企業(yè)能脫離互聯(lián)網(wǎng)而獨立存在，因此企業(yè)數(shù)據(jù)的總量會不斷增加，對應產(chǎn)生的數(shù)據(jù)價值甚至負擔也會同步提升。每個企業(yè)都需要擁有對于文件和富媒體素材（包含海量圖片，視頻，音頻）的使用和存儲的彈性能力，但只有極少數(shù)企業(yè)才需要擁有自建視頻云的能力和資源，大部分企業(yè)只需要借助一套穩(wěn)定并可持續(xù)升級的視頻云平臺，迎接未來產(chǎn)業(yè)中不斷變化和升級的未知挑戰(zhàn)。

報告出處：

Gartner白皮書英文版鏈接：https://www.gartner.com/technology/media-products/newsletters/qiniu/1-4UWO347/index.html
Gartner白皮書中文版鏈接：https://www.qiniu.com/products/qavs

消息來源：七牛云