2月12日,據(jù)“豆包大模型團隊”微信公眾號,近期,字節(jié)跳動豆包大模型團隊提出了全新的稀疏模型架構(gòu) UltraMem,該架構(gòu)有效解決了 MoE 推理時高額的訪存問題,推理速度較 MoE 架構(gòu)提升 2-6 倍,推理成本最高可降低 83%。該研究還揭示了新架構(gòu)的 Scaling Law,證明其不僅具備優(yōu)異的 Scaling 特性,更在性能上超越了 MoE。實驗結(jié)果表明,訓(xùn)練規(guī)模達 2000 萬 value 的 UltraMem 模型,在同等計算資源下,可同時實現(xiàn)業(yè)界領(lǐng)先的推理速度和模型性能,為構(gòu)建數(shù)十億規(guī)模 value 或 expert 開辟了新路徑。
《中國城市報》社有限公司版權(quán)所有,未經(jīng)書面授權(quán)禁止使用
Copyright ? 2015-2025 by www.yktax-zh.com. all rights reserved