全球首個!英偉達(dá)發(fā)布了一把用于“聲音的瑞士軍刀”

11月26日訊,全球英偉達(dá)近日展示了其最新研發(fā)的首個聲音士軍人工智能模型——Fugatto。

Fugatto是英偉用于一款基于生成式Transformer架構(gòu)的人工智能模型,其完整版配備了25億個參數(shù),達(dá)發(fā)的瑞刀并在由32個NVIDIA H100 Tensor Core GPU組成的布把NVIDIA DGX系統(tǒng)上進(jìn)行了訓(xùn)練。

全球首個!英偉達(dá)發(fā)布了一把用于“聲音的瑞士軍刀”

這款模型的全球主要功能在于能夠修改和生成聲音效果,專為音樂、首個聲音士軍電影和視頻游戲制作人設(shè)計(jì),英偉用于英偉達(dá)將其形象地稱為“聲音的達(dá)發(fā)的瑞刀瑞士軍刀”。

據(jù)NVIDIA應(yīng)用音頻研究經(jīng)理Rafael Valle透露,布把Fugatto的全球研發(fā)初衷是創(chuàng)建一個能夠像人類一樣理解和生成聲音的模型。

它支持多種音頻生成和轉(zhuǎn)換任務(wù),首個聲音士軍是英偉用于首個展示緊急屬性的基礎(chǔ)生成式AI模型,這得益于其各種訓(xùn)練能力的達(dá)發(fā)的瑞刀交互以及組合自由格式指令的能力。

Fugatto的布把功能十分強(qiáng)大,能夠根據(jù)文本描述生成音效和音樂,例如將鋼琴演奏轉(zhuǎn)換成人聲歌唱,或改變錄音的口音和情緒。

對于音樂制作人而言,F(xiàn)ugatto可以幫助他們快速制作原型或編輯歌曲創(chuàng)意,嘗試不同的風(fēng)格、聲音和樂器,同時添加效果并提高現(xiàn)有軌道的整體音頻質(zhì)量。

廣告代理商則可以利用Fugatto快速定位多個地區(qū)或情況的現(xiàn)有廣告活動,將不同的口音和情感應(yīng)用于畫外音。

視頻游戲開發(fā)人員則可以使用該模型修改游戲中預(yù)先錄制的素材,或根據(jù)文本說明和可選的音頻輸入動態(tài)創(chuàng)建新素材。

另外,F(xiàn)ugatto 的新穎性主要體現(xiàn)在以下方面:

首先,在推理過程中,該模型采用了稱為ComposableART的技術(shù),能夠組合在訓(xùn)練期間只能單獨(dú)看到的指令。

例如,通過組合提示,可以要求模型以法國口音說出帶有悲傷情緒的文本。

此外,該模型在指令之間進(jìn)行插值的能力使用戶能夠?qū)ξ谋局噶钸M(jìn)行精細(xì)控制,如重音的沉重程度或悲傷的程度。

其次,F(xiàn)ugatto還能夠生成隨時間變化的聲音,NVIDIA將這一功能稱為時間插值。

例如,它可以模擬暴雨穿過區(qū)域的聲音,雷聲逐漸增強(qiáng),然后慢慢消失在遠(yuǎn)處。這一功能使用戶能夠精細(xì)地控制音景的演變方式。

最后,與大多數(shù)只能重現(xiàn)所接觸的訓(xùn)練數(shù)據(jù)的模型不同,F(xiàn)ugatto允許用戶創(chuàng)建以前從未見過的音景。

例如,它可以模擬雷雨隨著鳥兒的歌聲緩和為黎明的場景。

總而言之,F(xiàn)ugatto憑借其功能多樣性和創(chuàng)新性,在音頻領(lǐng)域具有廣闊的發(fā)展空間。

百科
上一篇:《刺猬索尼克3》幕后花絮公開 伊德瑞斯·艾爾巴手戴納克魯斯拳套配音 方法派表演者
下一篇:《驚聲尖叫7》動態(tài)《壞種》麥肯娜·格蕾絲加盟