黄色网站va,欧美一区综合,91九色成人,亚洲午夜视频,综合激情久久,伊人成网站222综合网,三级在线观看视频

<kbd id="fknxt"></kbd>

<nobr id="fknxt"><blockquote id="fknxt"></blockquote></nobr>

百科 2024-12-23 01:50:31 233

全球首個！英偉達(dá)發(fā)布了一把用于“聲音的瑞士軍刀”

11月26日訊，全球英偉達(dá)近日展示了其最新研發(fā)的首個聲音士軍人工智能模型——Fugatto。

Fugatto是英偉用于一款基于生成式Transformer架構(gòu)的人工智能模型，其完整版配備了25億個參數(shù)，達(dá)發(fā)的瑞刀并在由32個NVIDIA H100 Tensor Core GPU組成的布把NVIDIA DGX系統(tǒng)上進(jìn)行了訓(xùn)練。

這款模型的全球主要功能在于能夠修改和生成聲音效果，專為音樂、首個聲音士軍電影和視頻游戲制作人設(shè)計(jì)，英偉用于英偉達(dá)將其形象地稱為“聲音的達(dá)發(fā)的瑞刀瑞士軍刀”。

據(jù)NVIDIA應(yīng)用音頻研究經(jīng)理Rafael Valle透露，布把Fugatto的全球研發(fā)初衷是創(chuàng)建一個能夠像人類一樣理解和生成聲音的模型。

它支持多種音頻生成和轉(zhuǎn)換任務(wù)，首個聲音士軍是英偉用于首個展示緊急屬性的基礎(chǔ)生成式AI模型，這得益于其各種訓(xùn)練能力的達(dá)發(fā)的瑞刀交互以及組合自由格式指令的能力。

Fugatto的布把功能十分強(qiáng)大，能夠根據(jù)文本描述生成音效和音樂，例如將鋼琴演奏轉(zhuǎn)換成人聲歌唱，或改變錄音的口音和情緒。

對于音樂制作人而言，F(xiàn)ugatto可以幫助他們快速制作原型或編輯歌曲創(chuàng)意，嘗試不同的風(fēng)格、聲音和樂器，同時添加效果并提高現(xiàn)有軌道的整體音頻質(zhì)量。

廣告代理商則可以利用Fugatto快速定位多個地區(qū)或情況的現(xiàn)有廣告活動，將不同的口音和情感應(yīng)用于畫外音。

視頻游戲開發(fā)人員則可以使用該模型修改游戲中預(yù)先錄制的素材，或根據(jù)文本說明和可選的音頻輸入動態(tài)創(chuàng)建新素材。

另外，F(xiàn)ugatto 的新穎性主要體現(xiàn)在以下方面：

首先，在推理過程中，該模型采用了稱為ComposableART的技術(shù)，能夠組合在訓(xùn)練期間只能單獨(dú)看到的指令。

例如，通過組合提示，可以要求模型以法國口音說出帶有悲傷情緒的文本。

此外，該模型在指令之間進(jìn)行插值的能力使用戶能夠?qū)ξ谋局噶钸M(jìn)行精細(xì)控制，如重音的沉重程度或悲傷的程度。

其次，F(xiàn)ugatto還能夠生成隨時間變化的聲音，NVIDIA將這一功能稱為時間插值。

例如，它可以模擬暴雨穿過區(qū)域的聲音，雷聲逐漸增強(qiáng)，然后慢慢消失在遠(yuǎn)處。這一功能使用戶能夠精細(xì)地控制音景的演變方式。

最后，與大多數(shù)只能重現(xiàn)所接觸的訓(xùn)練數(shù)據(jù)的模型不同，F(xiàn)ugatto允許用戶創(chuàng)建以前從未見過的音景。

例如，它可以模擬雷雨隨著鳥兒的歌聲緩和為黎明的場景。

總而言之，F(xiàn)ugatto憑借其功能多樣性和創(chuàng)新性，在音頻領(lǐng)域具有廣闊的發(fā)展空間。