上海2024年5月27日 /美通社/ -- 自ChatGPT的發(fā)布引發(fā)全球范圍內(nèi)對大模型的廣泛關(guān)注以來,目前,國內(nèi)公布的大模型數(shù)量已超過300個,行業(yè)呈現(xiàn)出"百模大戰(zhàn)"的競爭格局。在此背景下,億歐近日發(fā)布《2024中國"百模大戰(zhàn)"競爭格局分析報告》,全方位呈現(xiàn)大模型產(chǎn)業(yè)現(xiàn)狀。作為產(chǎn)業(yè)鏈上的重要一環(huán),澳鵬Appen憑借高質(zhì)量的大模型數(shù)據(jù)能力入選大模型基礎(chǔ)層圖譜。與此同時,作為大模型數(shù)據(jù)領(lǐng)域的代表案例,本次報告還分析了澳鵬如何成功助力全球15,000+個AI項目的研發(fā)及商業(yè)化,賦能AGI智能涌現(xiàn)。
隨著"數(shù)據(jù)二十條"等一系列政策措施相繼出臺,數(shù)據(jù)要素市場的探索與發(fā)展已步入高速增長階段。據(jù)億歐預計,2025年數(shù)據(jù)要素市場規(guī)模可達1990億元,年復合增長率可達25%。尤其是在人工智能快速迭代、大模型與數(shù)據(jù)相得益彰的發(fā)展態(tài)勢中,數(shù)據(jù)要素的戰(zhàn)略地位進一步凸顯。
澳鵬(中國)自主研發(fā)的大模型智能開發(fā)平臺集大模型數(shù)據(jù)準備、訓練、推理、部署應用于一體,支持從數(shù)據(jù)集管理、數(shù)據(jù)標注、模型評估、模型調(diào)優(yōu)、訓練平臺部署及標注工具部署等大模型定制開發(fā)的全流程需求,助力企業(yè)輕松擁抱大模型。
澳鵬大模型智能開發(fā)平臺涵蓋三大核心技術(shù):自研的預標注模型、交互式分割模型及算法賦能的文檔智能。首先,澳鵬通過海量圖像、點云等數(shù)據(jù),結(jié)合豐富的實際項目經(jīng)驗,預訓練了車輛行駛、交通燈、停車位、人像識別等多場景預標注模型,可實現(xiàn)2D 3D聯(lián)合拉框、視頻連續(xù)幀mask追蹤等全方位的預識別結(jié)果輸出,大幅提高后續(xù)標注效率。
為適應2D圖像標注中多樣化的物體類別分割與檢測,澳鵬結(jié)合豐富的圖像數(shù)據(jù)訓練了交互式分割模型并內(nèi)嵌于標注工具中。僅需通過點擊的方式標記正確區(qū)域并糾正輸出結(jié)果,即可完成物體識別;再結(jié)合連續(xù)幀信息引入,大幅提升2D圖像標注效率。模型支持微調(diào)訓練,可適應定制化的場景需求。
為解決各類場景下的文檔信息轉(zhuǎn)化提取難題,澳鵬基于海量文檔數(shù)據(jù)預訓練了智能文檔處理模型。支持輸入圖片或PDF格式文檔,對帶陰影圖片、傾斜圖片、手寫表格、各類學科公式等多類信息進行識別,并轉(zhuǎn)化成word文檔輸出,便于人工編輯校對。
隨著大模型技術(shù)的演進,其賦能千行百業(yè)的能力不斷提升。在數(shù)據(jù)集方面,澳鵬LLM數(shù)據(jù)庫覆蓋教育、法律、醫(yī)療、金融、百科等眾多熱門垂直領(lǐng)域,提供超過290種語言和方言的文本、語音數(shù)據(jù)庫,并創(chuàng)建了一系列大模型專用數(shù)據(jù)集,如:百科類人工泛化文本問答數(shù)據(jù)集,知識類百科文本語料對數(shù)據(jù)庫,58億圖文對數(shù)據(jù)庫等等。澳鵬提供JSON格式的多學科題目,并擁有20萬余條各種不同類型的高質(zhì)量指令集文本及法律醫(yī)療百科類文本,通過多重質(zhì)檢環(huán)節(jié)嚴格把關(guān)數(shù)據(jù)質(zhì)量,助力通用大模型和各種細分垂類大模型的訓練和落地。
澳鵬Appen全球高級副總裁、大中華區(qū)及北亞區(qū)總經(jīng)理田小鵬博士表示:"數(shù)據(jù)是決定機器學習模型性能的三大要素之一。隨著各類大模型的智能涌現(xiàn),數(shù)據(jù),尤其是高質(zhì)量的行業(yè)數(shù)據(jù),正在成為決定大模型高速發(fā)展的關(guān)鍵因素。澳鵬自研的算法模型和核心技術(shù),以及一系列大模型數(shù)據(jù)集,充分給予AI應用優(yōu)質(zhì)的數(shù)據(jù)養(yǎng)料,為大規(guī)模的大模型場景落地提供支持。"