昆侖芯三代萬卡集群點亮,為國內(nèi)首個正式點亮的自研萬卡集群

金車賞2025-02-05 16:47

金車賞

近日,百度智能云成功點亮昆侖芯三代萬卡集群,這也是國內(nèi)首個正式點亮的自研萬卡集群。百度智能云將進(jìn)一步點亮3萬卡集群。

?國產(chǎn)昆侖芯萬卡集群以及未來三萬卡集群的建設(shè),從硬件到軟件,技術(shù)挑戰(zhàn)是全方位的。而24年9月升級的百度百舸AI異構(gòu)計算平臺4.0,圍繞落地大模型全旅程的算力需求,在集群創(chuàng)建、開發(fā)實驗、模型訓(xùn)練、模型推理四大方面,能為企業(yè)提供“多、快、穩(wěn)、省”的AI基礎(chǔ)設(shè)施,在萬卡集群的建設(shè)中發(fā)揮了至關(guān)重要的作用。

?首先,突破硬件擴(kuò)展性瓶頸,如卡間互聯(lián)的拓?fù)湎拗?,避免通信帶寬成為瓶頸;同時,圍繞芯片及集群功耗,基于萬卡規(guī)模常規(guī)方案功耗可達(dá)十兆瓦或更高,采用創(chuàng)新性散熱方案,從而解決萬卡集群的能效與散熱問題;完善模型的分布式訓(xùn)練優(yōu)化,采用高效并行化任務(wù)切分策略,訓(xùn)練主流開源模型的集群MFU提升至58%;在提升穩(wěn)定性方面,提供容錯與穩(wěn)定性機(jī)制,避免由于單卡故障率隨規(guī)模指數(shù)上升而造成的萬卡集群有效性大幅下降,保障有效訓(xùn)練率達(dá)到98%;最后,針對機(jī)間通信帶寬需求,建設(shè)超大規(guī)模HPN高性能網(wǎng)絡(luò),優(yōu)化拓?fù)浣Y(jié)構(gòu),從而降低通信瓶頸,帶寬有效性達(dá)到90%以上。

同時,昆侖芯作為百度自研的AI芯片,憑借其獨特的技術(shù)優(yōu)勢,在百舸4.0的能力加持下,在生成式人工智能時代展現(xiàn)出了巨大的競爭力。

未來一年,將是各種AI原生應(yīng)用爆發(fā)的黃金時期。自研芯片和萬卡集群的建成帶來了強(qiáng)大的算力支持,同時有效提升百度和客戶的資源整體利用率,降低大模型訓(xùn)練成本,推動了模型降本的趨勢,為整個行業(yè)提供了新的思路和方向。

隨著國產(chǎn)大模型的興起,萬卡集群已從單純算力供給逐漸向“有效”算力供給過渡,通過模型優(yōu)化、并行策略、有效訓(xùn)練率提升、動態(tài)資源分配等手段,智能調(diào)度任務(wù),將訓(xùn)練、微調(diào)、推理任務(wù)混合部署,最大化提升集群綜合利用率,降低單位算力成本,從而真正發(fā)揮算力效能。百度智能云將始終陪伴在所有企業(yè)身旁,通過本次萬卡集群點亮和應(yīng)用落地,持續(xù)為企業(yè)提供源源不斷的穩(wěn)定、高效的算力動能。


版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【金車賞】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù),不代表經(jīng)觀的觀點和構(gòu)成投資等建議

熱新聞

電子刊物

點擊進(jìn)入