百度沈抖:百舸4.0升級發(fā)布,模型訓(xùn)練有效時長達(dá)99.5%

2024-09-25 11:14:48   來源:新浪科技   評論:0   [收藏]   [評論]
導(dǎo)讀:  新浪科技訊 9月25日上午消息,今日舉辦的2024百度云智大會上,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖宣布百度百舸AI異構(gòu)計算平臺4 0升級發(fā)布,支持多芯混訓(xùn)、多芯適配,在萬卡集群上實現(xiàn)了超過99 5
  新浪科技訊 9月25日上午消息,今日舉辦的2024百度云智大會上,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖宣布百度百舸AI異構(gòu)計算平臺4.0升級發(fā)布,支持多芯混訓(xùn)、多芯適配,在萬卡集群上實現(xiàn)了超過99.5%的有效訓(xùn)練時長。

  在算力緊缺的當(dāng)下,效率的提升將能夠幫助企業(yè)有效提升算力使用率,進(jìn)而降低成本。據(jù)介紹,為解決算力資源短缺的問題,百舸4.0對“多芯混訓(xùn)”能力進(jìn)行了重點升級,實現(xiàn)了在萬卡規(guī)模集群上95%的多芯混合訓(xùn)練效能,達(dá)到業(yè)務(wù)最領(lǐng)先水平。

  在集群部署環(huán)節(jié),升級后的百舸能夠?qū)崿F(xiàn)工具層面的秒級部署,將萬卡集群運(yùn)行準(zhǔn)備時間從數(shù)周最快縮減至1小時,極大地提升部署效率,縮短業(yè)務(wù)上線周期。

  針對大模型訓(xùn)練過程中故障頻發(fā)的問題,百舸4.0全面升級了故障檢測手段和自動容錯機(jī)制,可以有效降低故障發(fā)生頻次,大幅減少集群故障處置時間,在萬卡集群上實現(xiàn)了超過99.5%的有效訓(xùn)練時長。

  在模型推理上,最重要的是速度和成本。現(xiàn)在長文本推理逐漸成為主流,百舸4.0整體上做到了推理速度和成本優(yōu)化,長文本推理效率提升了1倍以上。

分享到:
責(zé)任編輯:zsz

網(wǎng)友評論