首页 > 计算机科学

DeepSeek-V4的并行策略和计算通信遮掩

机器学习算法与自然语言处理 2026-05-07 06:17
文章摘要
本文深入探讨了DeepSeek-V4模型的分布式并行策略,特别是专家并行(EP)中的计算与通信遮掩技术。背景方面,随着模型规模向万亿参数迈进,GPU显存限制和跨节点网络带宽瓶颈成为主要挑战,尤其是从Dense模型切换到MoE后,MFU显著下降。研究目的旨在解析如何通过精细的并行策略设计,在低带宽网络(如InfiniBand)条件下,最大化GPU利用率和训练吞吐量,平衡计算、访存和通信三者之间的关系。结论指出,DeepSeek采用了PP(流水线并行)+ EP(专家并行)+ ZeRO-1的组合方案,并创新性地提出了DualPipe和Waved-EP两种计算通信遮掩技术。DualPipe通过双向流水线调度,在稳态阶段将EP的通信开销隐藏到计算之后,而Waved-EP则是一个更通用的kernel级方案,将专家切分为多个wave,在wave间并行化dispatch、计算和combine,从而在小批次场景下也能实现高效遮掩。这些技术使得在8卡节点+IB网络的低成本硬件上高效训练万亿参数模型成为可能,体现了极致的工程平衡艺术。
DeepSeek-V4的并行策略和计算通信遮掩
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
DeepSeek-V4的并行策略和计算通信遮掩
DeepSeek-V4的并行策略和计算通信遮掩
最近模型从Dense切到了MoE,MFU也相应地暴跌了,大家直觉上觉得Expert被切的很小,所以计算强度上不去,但实际切分完的维度至少也有1024,MFU暴跌的原因一定不来自这里。深入理解这个问题,就是理解GPU的分布式并行计算
2026-05-06
Claude团队用Qwen测试全新训练方法
Claude团队用Qwen测试全新训练方法
用价值观文档做「中训练」
2026-05-06
李晓熙@中国人民大学:推理、搜索与行动:迈向真实世界的AI智能体
李晓熙@中国人民大学:推理、搜索与行动:迈向真实世界的AI智能体
本期MLNLP学术Talk邀请了中国人民大学博士生李晓熙为我们带来"推理、搜索与行动:迈向真实世界的AI智能体"的主题报告。
2026-05-06
Book学术官方微信
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1