2月12日,據“豆包大模型團隊”微信公眾號,近期,字節跳動豆包大模型團隊提出了全新的稀疏模型架構 UltraMem,該架構有效解決了 MoE 推理時高額的訪存問題,推理速度較 MoE 架構提升 2-6 倍,推理成本最高可降低 83%。該研究還揭示了新架構的 Scaling Law,證明其不僅具備優異的 Scaling 特性,更在性能上超越了 MoE。實驗結果表明,訓練規模達 2000 萬 value 的 UltraMem 模型,在同等計算資源下,可同時實現業界領先的推理速度和模型性能,為構建數十億規模 value 或 expert 開辟了新路徑。
豆包提出全新稀疏架構 降低推理成本
2025年02月13日 17:14:23 新京報韋博雅
責任編輯:張阿嬙
架構推理moe