北京2025年4月9日 /美通社/ -- 亞馬遜宣布推出一款全新的基礎(chǔ)模型Amazon Nova Sonic,將語(yǔ)音理解與語(yǔ)音生成統(tǒng)一于單一的模型中,使AI應(yīng)用程序中的語(yǔ)音對(duì)話更貼近真人交流。該模型通過(guò)Amazon Bedrock上的新API提供,可簡(jiǎn)化語(yǔ)音應(yīng)用開(kāi)發(fā)流程,例如客戶服務(wù)通話自動(dòng)化及覆蓋旅游、教育、醫(yī)療、娛樂(lè)等領(lǐng)域的跨行業(yè)AI agents。
在過(guò)去十余年間,亞馬遜始終引領(lǐng)著語(yǔ)音技術(shù)的發(fā)展,致力于為對(duì)話式AI應(yīng)用賦能——從打造全球領(lǐng)先的個(gè)人AI助手Alexa,到開(kāi)發(fā)亞馬遜云科技的各類服務(wù),如Lex、Polly和Connect等。但要讓語(yǔ)音AI為客戶創(chuàng)造更多實(shí)際價(jià)值,它必須能夠理解人類對(duì)話的微妙與復(fù)雜性。在對(duì)話中,文字本身承載意義,但若沒(méi)有聲音語(yǔ)境賦予其深度,僅憑文字往往難以傳達(dá)完整信息。如何表達(dá)與表達(dá)什么同樣重要,甚至更為關(guān)鍵。從過(guò)去直到現(xiàn)在,通過(guò)AI實(shí)現(xiàn)這一點(diǎn)仍是巨大挑戰(zhàn)。
一套捕捉語(yǔ)氣、風(fēng)格與節(jié)奏的語(yǔ)音系統(tǒng)
傳統(tǒng)語(yǔ)音應(yīng)用開(kāi)發(fā)需復(fù)雜協(xié)調(diào)多個(gè)模型,例如將語(yǔ)音轉(zhuǎn)為文字的語(yǔ)音識(shí)別模型、理解并生成回復(fù)的大語(yǔ)言模型(LLM)、將文字再轉(zhuǎn)為音頻的文本轉(zhuǎn)語(yǔ)音模型。這種分散的方法不僅增加了開(kāi)發(fā)的復(fù)雜性,同時(shí)也難以保留自然對(duì)話中至關(guān)重要的聲學(xué)情境和細(xì)微差別,如語(yǔ)氣、語(yǔ)調(diào)韻律和說(shuō)話風(fēng)格等。
Nova Sonic采用全新方法應(yīng)對(duì)這些挑戰(zhàn)。它摒棄了使用多個(gè)不同模型的方式,而是將理解與生成功能統(tǒng)一于單一模型中。這種整合使模型能根據(jù)語(yǔ)氣、風(fēng)格等聲學(xué)情境以及口語(yǔ)輸入調(diào)整所生成的語(yǔ)音響應(yīng),從而實(shí)現(xiàn)更自然的對(duì)話。Nova Sonic甚至能理解人類對(duì)話的細(xì)微之處,包括說(shuō)話者的自然停頓與猶豫、能在恰當(dāng)時(shí)機(jī)做出回應(yīng),并能從容應(yīng)對(duì)對(duì)話中的插話情況。
基于Amazon Nova Sonic構(gòu)建的旅游AI agent示例:
https://soundcloud.com/amazonblog/amazon-nova-sonic-ai-agent-travel
這段對(duì)話展示了客戶與虛擬旅游助手討論夏威夷行程的場(chǎng)景。當(dāng)客戶的語(yǔ)氣從興奮轉(zhuǎn)為擔(dān)憂費(fèi)用時(shí),AI的語(yǔ)調(diào)隨之變得更具安撫性,并實(shí)時(shí)調(diào)取相關(guān)價(jià)格信息。
該模型還會(huì)為用戶語(yǔ)音生成文字轉(zhuǎn)錄,讓開(kāi)發(fā)者能夠利用這些文本來(lái)調(diào)用特定工具與API,從而構(gòu)建語(yǔ)音AI agents。比如在這個(gè)示例中,AI旅游代理可以通過(guò)獲取最新的航班信息來(lái)協(xié)助機(jī)票預(yù)訂。這些功能,加上其超快的推理能力,使Nova Sonic支持的語(yǔ)音應(yīng)用不僅更加自然,而且實(shí)用性更強(qiáng)。
基于Amazon Nova Sonic構(gòu)建的企業(yè)AI助手示例:
https://soundcloud.com/amazonblog/amazon-nova-sonic-ai-agent-travel
此示例展示了企業(yè)客戶如何從Nova Sonic基于公司數(shù)據(jù)生成響應(yīng)的能力中受益。該助手能夠提取報(bào)告并以自然對(duì)話的方式傳遞準(zhǔn)確信息,同時(shí)主動(dòng)提出相關(guān)的后續(xù)問(wèn)題。這種流暢的對(duì)話模式支持多輪交互,無(wú)需說(shuō)話者額外設(shè)定對(duì)話背景。
Nova Sonic的推出彰顯了亞馬遜在先進(jìn)基礎(chǔ)模型領(lǐng)域的持續(xù)創(chuàng)新,亞馬遜始終致力于為每一位亞馬遜客戶創(chuàng)造實(shí)際價(jià)值。
立即通過(guò)Amazon Nova開(kāi)始體驗(yàn)。欲了解更多信息,請(qǐng)?jiān)L問(wèn)亞馬遜在AI領(lǐng)域的創(chuàng)新。
免責(zé)聲明:
本新聞稿中提及的亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外區(qū)域可用,亞馬遜云科技中國(guó)僅為幫助您發(fā)展海外業(yè)務(wù)和了解行業(yè)前沿技術(shù)選擇推薦該服務(wù)。