北京2022年9月14日 /美通社/ -- 日前,亞馬遜云科技為其機(jī)器學(xué)習(xí)數(shù)據(jù)標(biāo)注服務(wù)Amazon SageMaker Ground Truth新增合成數(shù)據(jù)(圖像)生成功能??蛻?hù)使用這一新功能,可以生成數(shù)十萬(wàn)計(jì)已標(biāo)注的合成圖像,無(wú)需手動(dòng)標(biāo)注數(shù)據(jù),提高標(biāo)注的準(zhǔn)確性,并快速獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)集。該功能的推出讓Amazon SageMaker變得更強(qiáng)大,作為亞馬遜云科技機(jī)器學(xué)習(xí)服務(wù)層面的核心產(chǎn)品,亞馬遜云科技不斷豐富Amazon SageMaker的功能,僅2021年就推出60多項(xiàng)新的特性和功能。
機(jī)器學(xué)習(xí)(ML)模型構(gòu)建是一個(gè)不斷重復(fù)、迭代的過(guò)程,從數(shù)據(jù)收集和準(zhǔn)備開(kāi)始,然后是模型訓(xùn)練和部署。其中,為模型訓(xùn)練收集大量、多樣化且準(zhǔn)確標(biāo)注的數(shù)據(jù)集,是非常具有挑戰(zhàn)性并耗時(shí)的第一步。
以計(jì)算機(jī)視覺(jué)(CV)應(yīng)用為例,在工業(yè)領(lǐng)域,該技術(shù)能夠改善生產(chǎn)質(zhì)量、提高倉(cāng)庫(kù)管理的自動(dòng)化水平等,目前已在工業(yè)數(shù)字化和智能化發(fā)揮了關(guān)鍵作用。然而,為訓(xùn)練計(jì)算機(jī)視覺(jué)模型而收集數(shù)據(jù)的過(guò)程既耗時(shí)又費(fèi)力,有時(shí)甚至幾乎無(wú)法完成。為確保模型的準(zhǔn)確性,數(shù)據(jù)科學(xué)家可能會(huì)花費(fèi)數(shù)月時(shí)間,從生產(chǎn)環(huán)境中收集數(shù)十萬(wàn)張圖像,盡可能涵蓋數(shù)據(jù)的所有變化。但在某些情況下,例如,要獲取罕見(jiàn)或價(jià)格昂貴的產(chǎn)品的缺陷的圖像,只有通過(guò)故意損壞產(chǎn)品這種極端方式才能實(shí)現(xiàn),這讓數(shù)據(jù)科學(xué)家無(wú)法從真實(shí)數(shù)據(jù)中找到所有的數(shù)據(jù)變化。
收集完所有數(shù)據(jù)后,數(shù)據(jù)科學(xué)家團(tuán)隊(duì)還需要準(zhǔn)確地標(biāo)注圖像,這又是一項(xiàng)艱巨的任務(wù)。手動(dòng)標(biāo)注圖像進(jìn)程緩慢且容易出現(xiàn)人為錯(cuò)誤;同時(shí),構(gòu)建自定義標(biāo)注工具和設(shè)置縮放標(biāo)注操作可能既耗時(shí)又昂貴。將真實(shí)數(shù)據(jù)與合成數(shù)據(jù)相結(jié)合是緩解這一挑戰(zhàn)的方法之一,讓數(shù)據(jù)科學(xué)團(tuán)隊(duì)可以創(chuàng)建更完整和平衡的數(shù)據(jù)集并增加數(shù)據(jù)的多樣性。
亞馬遜云科技機(jī)器學(xué)習(xí)數(shù)據(jù)標(biāo)注服務(wù)Amazon SageMaker Ground Truth,可以讓客戶(hù)創(chuàng)建任何圖像數(shù)據(jù),包括在現(xiàn)實(shí)世界中難以發(fā)現(xiàn)和復(fù)制的特殊場(chǎng)景數(shù)據(jù)??蛻?hù)甚至可以自定義對(duì)象和環(huán)境的變量,例如反映不同的照明、顏色、紋理、姿勢(shì)或背景。Amazon SageMaker Ground Truth讓數(shù)據(jù)科學(xué)家可以為其正在訓(xùn)練的機(jī)器學(xué)習(xí)模型"量身定制"特定用例。此外,客戶(hù)還可以選擇Amazon SageMaker Ground Truth Plus,借助亞馬遜云科技的專(zhuān)家團(tuán)隊(duì)創(chuàng)建高質(zhì)量的訓(xùn)練數(shù)據(jù)集,無(wú)需構(gòu)建用于標(biāo)注的應(yīng)用程序或自行管理標(biāo)注的人員。
Plus One Robotics是一家物流機(jī)器人視覺(jué)軟件開(kāi)發(fā)商。Plus One Robotics 創(chuàng)始人、首席技術(shù)官Shaun Edwards 表示,"隨著人力資源的減少以及倉(cāng)庫(kù)商品量的激增,客戶(hù)希望我們能幫助他們處理倉(cāng)庫(kù)中千變?nèi)f化的物品。新入庫(kù)的商品可能是首次出現(xiàn),或者只在特定情形下出現(xiàn)。使用合成數(shù)據(jù)能讓我們預(yù)先對(duì)系統(tǒng)進(jìn)行訓(xùn)練,以應(yīng)對(duì)現(xiàn)實(shí)可能遇到的各種情況。我們使用Amazon SageMaker Ground Truth生成數(shù)以萬(wàn)計(jì)帶標(biāo)簽的、來(lái)自不同承運(yùn)商的逼真物品圖像,對(duì)物品姿勢(shì)、位置、甚至貼紙或標(biāo)簽之類(lèi)的表面變化進(jìn)行建模。合成圖像使我們能夠更快地訓(xùn)練性能更好的系統(tǒng),其完整性和精確性使我們免去繁瑣的數(shù)據(jù)標(biāo)注和清洗步驟,每天為客戶(hù)超過(guò)100萬(wàn)的運(yùn)單提供支持。