澳鵬入選億歐大模型基礎(chǔ)層圖譜，以優(yōu)質(zhì)數(shù)據(jù)賦能AGI智能涌現(xiàn)

2024-05-27 13:10 4219

上海2024年5月27日 /美通社/ -- 自ChatGPT的發(fā)布引發(fā)全球范圍內(nèi)對(duì)大模型的廣泛關(guān)注以來，目前，國(guó)內(nèi)公布的大模型數(shù)量已超過300個(gè)，行業(yè)呈現(xiàn)出"百模大戰(zhàn)"的競(jìng)爭(zhēng)格局。在此背景下，億歐近日發(fā)布《2024中國(guó)"百模大戰(zhàn)"競(jìng)爭(zhēng)格局分析報(bào)告》，全方位呈現(xiàn)大模型產(chǎn)業(yè)現(xiàn)狀。作為產(chǎn)業(yè)鏈上的重要一環(huán)，澳鵬Appen憑借高質(zhì)量的大模型數(shù)據(jù)能力入選大模型基礎(chǔ)層圖譜。與此同時(shí)，作為大模型數(shù)據(jù)領(lǐng)域的代表案例，本次報(bào)告還分析了澳鵬如何成功助力全球15,000+個(gè)AI項(xiàng)目的研發(fā)及商業(yè)化，賦能AGI智能涌現(xiàn)。

澳鵬Appen憑借高質(zhì)量的大模型數(shù)據(jù)能力入選大模型基礎(chǔ)層圖譜

隨著"數(shù)據(jù)二十條"等一系列政策措施相繼出臺(tái)，數(shù)據(jù)要素市場(chǎng)的探索與發(fā)展已步入高速增長(zhǎng)階段。據(jù)億歐預(yù)計(jì)，2025年數(shù)據(jù)要素市場(chǎng)規(guī)?？蛇_(dá)1990億元，年復(fù)合增長(zhǎng)率可達(dá)25%。尤其是在人工智能快速迭代、大模型與數(shù)據(jù)相得益彰的發(fā)展態(tài)勢(shì)中，數(shù)據(jù)要素的戰(zhàn)略地位進(jìn)一步凸顯。

澳鵬（中國(guó)）自主研發(fā)的大模型智能開發(fā)平臺(tái)集大模型數(shù)據(jù)準(zhǔn)備、訓(xùn)練、推理、部署應(yīng)用于一體，支持從數(shù)據(jù)集管理、數(shù)據(jù)標(biāo)注、模型評(píng)估、模型調(diào)優(yōu)、訓(xùn)練平臺(tái)部署及標(biāo)注工具部署等大模型定制開發(fā)的全流程需求，助力企業(yè)輕松擁抱大模型。

澳鵬（中國(guó)）自主研發(fā)的大模型智能開發(fā)平臺(tái)

澳鵬大模型智能開發(fā)平臺(tái)涵蓋三大核心技術(shù)：自研的預(yù)標(biāo)注模型、交互式分割模型及算法賦能的文檔智能。首先，澳鵬通過海量圖像、點(diǎn)云等數(shù)據(jù)，結(jié)合豐富的實(shí)際項(xiàng)目經(jīng)驗(yàn)，預(yù)訓(xùn)練了車輛行駛、交通燈、停車位、人像識(shí)別等多場(chǎng)景預(yù)標(biāo)注模型，可實(shí)現(xiàn)2D 3D聯(lián)合拉框、視頻連續(xù)幀mask追蹤等全方位的預(yù)識(shí)別結(jié)果輸出，大幅提高后續(xù)標(biāo)注效率。

澳鵬自研預(yù)標(biāo)注模型

為適應(yīng)2D圖像標(biāo)注中多樣化的物體類別分割與檢測(cè)，澳鵬結(jié)合豐富的圖像數(shù)據(jù)訓(xùn)練了交互式分割模型并內(nèi)嵌于標(biāo)注工具中。僅需通過點(diǎn)擊的方式標(biāo)記正確區(qū)域并糾正輸出結(jié)果，即可完成物體識(shí)別；再結(jié)合連續(xù)幀信息引入，大幅提升2D圖像標(biāo)注效率。模型支持微調(diào)訓(xùn)練，可適應(yīng)定制化的場(chǎng)景需求。

澳鵬交互式分割模型

為解決各類場(chǎng)景下的文檔信息轉(zhuǎn)化提取難題，澳鵬基于海量文檔數(shù)據(jù)預(yù)訓(xùn)練了智能文檔處理模型。支持輸入圖片或PDF格式文檔，對(duì)帶陰影圖片、傾斜圖片、手寫表格、各類學(xué)科公式等多類信息進(jìn)行識(shí)別，并轉(zhuǎn)化成word文檔輸出，便于人工編輯校對(duì)。

澳鵬Appen算法賦能的文檔智能

隨著大模型技術(shù)的演進(jìn)，其賦能千行百業(yè)的能力不斷提升。在數(shù)據(jù)集方面，澳鵬LLM數(shù)據(jù)庫(kù)覆蓋教育、法律、醫(yī)療、金融、百科等眾多熱門垂直領(lǐng)域，提供超過290種語(yǔ)言和方言的文本、語(yǔ)音數(shù)據(jù)庫(kù)，并創(chuàng)建了一系列大模型專用數(shù)據(jù)集，如：百科類人工泛化文本問答數(shù)據(jù)集，知識(shí)類百科文本語(yǔ)料對(duì)數(shù)據(jù)庫(kù)，58億圖文對(duì)數(shù)據(jù)庫(kù)等等。澳鵬提供JSON格式的多學(xué)科題目，并擁有20萬余條各種不同類型的高質(zhì)量指令集文本及法律醫(yī)療百科類文本，通過多重質(zhì)檢環(huán)節(jié)嚴(yán)格把關(guān)數(shù)據(jù)質(zhì)量，助力通用大模型和各種細(xì)分垂類大模型的訓(xùn)練和落地。

澳鵬Appen全球高級(jí)副總裁、大中華區(qū)及北亞區(qū)總經(jīng)理田小鵬博士表示："數(shù)據(jù)是決定機(jī)器學(xué)習(xí)模型性能的三大要素之一。隨著各類大模型的智能涌現(xiàn)，數(shù)據(jù)，尤其是高質(zhì)量的行業(yè)數(shù)據(jù)，正在成為決定大模型高速發(fā)展的關(guān)鍵因素。澳鵬自研的算法模型和核心技術(shù)，以及一系列大模型數(shù)據(jù)集，充分給予AI應(yīng)用優(yōu)質(zhì)的數(shù)據(jù)養(yǎng)料，為大規(guī)模的大模型場(chǎng)景落地提供支持。"

消息來源：澳鵬數(shù)據(jù)科技（上海）有限公司