黄色网站va,欧美一区综合,91九色成人,亚洲午夜视频,综合激情久久,伊人成网站222综合网,三级在线观看视频

會員登錄 - 用戶注冊 - 設為首頁 - 加入收藏 - 網(wǎng)站地圖 AI史上最大靈魂拷問:10萬卡集群該咋管!

AI史上最大靈魂拷問:10萬卡集群該咋管

時間:2024-12-23 02:04:29 來源:下愚不移網(wǎng) 作者:綜合 閱讀:943次

11月6日,史上在百度智能云技術沙龍期間,靈魂百度杰出系統(tǒng)架構師、拷問百度智能云AI計算部負責人王雁鵬表示,集群全球科技巨頭正在積極打造10萬卡集群,該咋管沖刺AGI;而國內(nèi)構建10萬卡集群則面臨著三大難題:跨地域部署、史上多芯混訓以及集群穩(wěn)定性。靈魂這些難題包括技術和工程上的拷問多重挑戰(zhàn)。王雁鵬介紹,集群經(jīng)過多年的該咋管技術積累和產(chǎn)業(yè)實踐,百舸4.0已能夠?qū)崿F(xiàn)10萬卡集群的史上高效管理,并通過HPN高性能網(wǎng)絡、靈魂自動化混訓切分策略、拷問自研集合通信庫等一系列產(chǎn)品技術創(chuàng)新,集群解決了上述難題。該咋管


百度杰出系統(tǒng)架構師 王雁鵬

AI史上最大靈魂拷問:10萬卡集群該咋管

為什么需要10萬卡集群?

大模型競賽本質(zhì)是算力競賽

自OpenAI發(fā)布Chatgpt兩年來,大模型產(chǎn)業(yè)發(fā)展的腳步似乎慢了。然而大洋彼岸,xAI、Meta、OpenAI等眾多科技巨頭都在積極布局10萬卡乃至更大規(guī)模的智算集群。

當?shù)貢r間 7 月 22 日,馬斯克宣布位于美國田納西州孟菲斯市的孟菲斯超級集群開始投入訓練。該集群配備了 10 萬個英偉達 H100 GPU,被稱為 “世界上最強大的 AI 訓練集群”。兩個月后,馬斯克在 X 平臺上宣布該集群名為 “Colossus(巨人)”,將在未來幾個月內(nèi)再增加 10 萬顆 GPU,其中 5 萬顆將是更為先進的英偉達 H200。 Grok 3 大模型正在超算中心中進行訓練,訓練預計在三到四個月內(nèi)完成,目標是在今年 12 月發(fā)布 Grok 3。

另一家科技巨頭Meta也不示弱。Meta首席執(zhí)行官馬克·扎克伯格在第三季度財報電話會議上透露,Llama 4模型正在一個由10萬片H100 GPU組成的集群上進行訓練,并預計在明年首次推出。為了支持大模型,Meta預計本年度資本支出將高達400億美元,比去年增加了超過42%。扎克伯格在財報電話會議中強調(diào),明年將進一步加大對AI基礎設施的投資。

而大模型領頭羊OpenAI與微軟的“黃金搭檔”卻因為計算集群的交付進度產(chǎn)生了分歧。此前微軟與 OpenAI 合作共建一個代號為 “星際之門” 的巨型數(shù)據(jù)中心項目。這個項目預計成本超過 1150 億美元,旨在容納一臺面向 AI 的配備數(shù)百萬塊 GPU 的超級計算機。據(jù)報道,微軟計劃到明年年底向 OpenAI 提供約 30 萬個英偉達最新的 GB200 圖形處理器。然而面對步步緊逼的對手,阿爾特曼似乎對微軟的速度不滿意。完成66億美元融資后,OpenAI開始尋求更加獨立的數(shù)據(jù)中心和云服務方式并與甲骨文達成了協(xié)議,將在德克薩斯州的一個新數(shù)據(jù)中心租用服務器。該數(shù)據(jù)中心被譽為世界上最大的數(shù)據(jù)中心之一,未來可能容納數(shù)十萬個英偉達 AI 芯片。

王雁鵬表示,從美國科技企業(yè)的瘋狂布局10萬卡可以看得出,Scaling Law定律目前看仍然有效。公開數(shù)據(jù)顯示,GPT-3的訓練數(shù)據(jù)集包含3000億個token。而GPT-4的訓練數(shù)據(jù)集包含約13萬億個token。模型的持續(xù)升級,意味著數(shù)據(jù)量的指數(shù)級增長。而訓練數(shù)據(jù)量的升級對計算集群也提出了挑戰(zhàn)。10萬卡的訓練集群正是為了滿足模型參數(shù)增長所帶來的高算力需求。

10萬卡集群難在哪?

跨地域部署、多芯混訓、集群穩(wěn)定性是最大挑戰(zhàn)

10萬卡雖好,但部署如此大規(guī)模的算力集群會面臨很大挑戰(zhàn)。

例如,美國老舊的電網(wǎng)就無法跟上大模型的步伐。由于集群耗電量巨大,美國的眾多數(shù)據(jù)中心都遭遇了電網(wǎng)崩潰。一位微軟工程師曾表示,為GPT-6搭建10萬個H100訓練集群時,整個電網(wǎng)發(fā)生了崩潰。據(jù)估算,一個10萬卡集群每天的耗電量達到300萬度,相當于北京市東城區(qū)一天的居民用電量。此外,10萬卡集群需要大約 10 萬平方米,相當于 14 個標準足球場的面積。如果想在單一建筑中部署這么大的集群,將面臨選址困難和法規(guī)限制等挑戰(zhàn)。

出于上述原因,美國科技公司的超大集群大多選擇跨地域部署。為了突破單一數(shù)據(jù)中心的規(guī)模限制,谷歌和微軟已著手將大規(guī)模模型訓練擴展至多個數(shù)據(jù)中心園區(qū)。其中,谷歌的Gemini 1 Ultra模型已率先實現(xiàn)多數(shù)據(jù)中心訓練。微軟計劃將其在鳳凰城的AI訓練基地擴展至10座建筑,自建24個數(shù)據(jù)中心,在多個超大規(guī)模園區(qū)互聯(lián),實施覆蓋全美的大規(guī)模分布式訓練。

王雁鵬介紹,由于電網(wǎng)配電限制、占地空間大等原因,十萬卡集群需要跨樓、跨園區(qū),甚至跨城部署。而這種跨地域部署勢必會增加網(wǎng)絡通信的復雜性。跨地域通信需要解決長距離通信延遲、擁塞控制等技術問題。

國內(nèi)企業(yè)構建10萬卡集群還面臨著一個現(xiàn)實的困難:芯片。國內(nèi)企業(yè)面臨算力供應不穩(wěn)定的挑戰(zhàn),較難構建單一大規(guī)模訓練集群?,F(xiàn)實情況是,企業(yè)內(nèi)部會出現(xiàn)同一廠商不同代際芯片,或者不同廠商芯片共存的情況。這些芯片如何進行混部訓練,同時保證混部訓練的效率也是難題。

此外,隨著芯片集成度的不斷提高,芯片的故障率也會相應上升,英偉達H系列芯片的故障率比A系列高3-4倍。并且算力集群規(guī)模越大,其故障率就越高。按照H系列芯片的故障率水平,十萬卡集群每20分鐘就會出現(xiàn)故障。較高的故障率對穩(wěn)定性訓練保障提出了更高的要求。

如何破局?

如何解決跨地域部署、多芯混訓、集群穩(wěn)定性是國內(nèi)10萬卡部署的三大難題?王雁鵬介紹,以百度為代表的廠商正在破解這些難題。

在跨地域方面,針對由于傳輸距離變長所產(chǎn)生的高延遲,百舸4.0已經(jīng)構建了十萬卡級別的超大規(guī)模HPN高性能網(wǎng)絡,通過提供更高效的拓撲結(jié)構、更優(yōu)的多路徑負載均衡策略及通信策略,能夠?qū)崿F(xiàn)幾十公里的跨地域通信。同時,在通信效率上,通過優(yōu)化的擁塞控制算法、集合通信算法策略,將帶寬有效率提升至95%,實現(xiàn)了完全無阻塞。最后,通過10ms級別超高精度網(wǎng)絡監(jiān)控,保障了網(wǎng)絡穩(wěn)定性。

在多芯混訓方面,百舸能夠?qū)⒉煌攸c、不同規(guī)模的異構算力進行統(tǒng)一管理,構建起多芯資源池。當業(yè)務提交工作負載時,可自動進行芯片選型,依據(jù)集群剩余的芯片資源,選擇性價比最高的芯片來運行任務,從而最大化地利用集群的剩余資源。最終,可實現(xiàn)高達95%的萬卡多芯混合訓練效能。

在集群穩(wěn)定性方面,百舸提供全面的故障診斷手段,可以快速自動偵測到導致訓練任務異常的節(jié)點故障。同時,百度自研的BCCL(百度集合通信庫),能夠快速定位故障同時提供自動化的容錯能力,重新調(diào)度任務到健康節(jié)點,繼續(xù)完成訓練,目前已經(jīng)將故障恢復時間從小時級降低到分鐘級。

王雁鵬表示,公有云是企業(yè)進行大模型訓練的主流方式。在10萬卡集群出現(xiàn)之前,為滿足企業(yè)大模型的訓練需求,云廠商常常采用服務一個企業(yè),搭建一個集群的方式。然而,這種方式存在明顯劣勢,即每個集群都是為特定企業(yè)服務,在企業(yè)的訓練任務不處于高峰期時,集群中的計算資源可能會處于閑置狀態(tài),造成資源的浪費。而當10萬卡集群出現(xiàn)后,云廠商就可以依靠這個大型集群為眾多企業(yè)提供服務,根據(jù)不同企業(yè)的需求動態(tài)分配計算資源,這樣不僅提高了資源利用率,也降低了企業(yè)使用云服務的成本,極大地增強了云廠商在市場中的競爭優(yōu)勢。

“通過跨地域部署、多芯混訓等技術,云廠商可以有效降低運營及算力成本,從而為企業(yè)客戶帶來更加實惠的云服務。”王雁鵬說。

 

(責任編輯:百科)

相關內(nèi)容
  • 《絕地潛兵2》總監(jiān)表示 很榮幸能與玩家共同經(jīng)歷“過山車般的起伏”
  • [流言板]早日康復!格威:感謝聯(lián)系我的人送上的愛和支持,該工作了
  • 干擾對手,利物浦球迷凌晨在皇馬球員下榻酒店放鞭炮
  • 若魔笛、卡馬文加、巴斯克斯對陣利物浦染黃,將在下輪歐冠停賽
  • 被噴了一整年的4am。結(jié)果是年底打得最像人的
  • 能否攻破球門亞馬爾下半場兜射被撲,隨后擊中橫梁
  • 科貝記者:今天凌晨部分利物浦球迷在皇馬酒店外燃放鞭炮
  • [流言板]防守大閘!艾薩克全場6中1,得到5分12籃板2搶斷3封蓋
推薦內(nèi)容
  • TE 不想奪冠是吧 敢打17
  • 三星電子官宣芯片部門高管人事調(diào)動 力求扭轉(zhuǎn)不利局面
  • 斯科爾斯談切爾西:中鋒以及門將是目前最薄弱的兩個環(huán)節(jié)
  • 職業(yè)網(wǎng)球首秀!傳奇球星迭戈
  • [流言板]馬刺今日首發(fā):保羅、文班亞馬、瓦塞爾、索漢、巴恩斯
  • 微軟聲明:不會使用Office套件為AI訓練收集數(shù)據(jù)