文献互助智能选刊最新文献

高级搜索发布求助登录注册

首页 > 计算机科学

DeepSeek-V4的并行策略和计算通信遮掩

机器学习算法与自然语言处理 2026-05-07 06:17

文章摘要

本文深入探讨了DeepSeek-V4模型的分布式并行策略，特别是专家并行（EP）中的计算与通信遮掩技术。背景方面，随着模型规模向万亿参数迈进，GPU显存限制和跨节点网络带宽瓶颈成为主要挑战，尤其是从Dense模型切换到MoE后，MFU显著下降。研究目的旨在解析如何通过精细的并行策略设计，在低带宽网络（如InfiniBand）条件下，最大化GPU利用率和训练吞吐量，平衡计算、访存和通信三者之间的关系。结论指出，DeepSeek采用了PP（流水线并行）+ EP（专家并行）+ ZeRO-1的组合方案，并创新性地提出了DualPipe和Waved-EP两种计算通信遮掩技术。DualPipe通过双向流水线调度，在稳态阶段将EP的通信开销隐藏到计算之后，而Waved-EP则是一个更通用的kernel级方案，将专家切分为多个wave，在wave间并行化dispatch、计算和combine，从而在小批次场景下也能实现高效遮掩。这些技术使得在8卡节点+IB网络的低成本硬件上高效训练万亿参数模型成为可能，体现了极致的工程平衡艺术。

DeepSeek-V4的并行策略和计算通信遮掩

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

最新文章

DeepSeek-V4的并行策略和计算通信遮掩

DeepSeek-V4的并行策略和计算通信遮掩

最近模型从Dense切到了MoE，MFU也相应地暴跌了，大家直觉上觉得Expert被切的很小，所以计算强度上不去，但实际切分完的维度至少也有1024，MFU暴跌的原因一定不来自这里。深入理解这个问题，就是理解GPU的分布式并行计算

2026-05-06

Claude团队用Qwen测试全新训练方法

Claude团队用Qwen测试全新训练方法

用价值观文档做「中训练」

2026-05-06

李晓熙@中国人民大学：推理、搜索与行动：迈向真实世界的AI智能体

李晓熙@中国人民大学：推理、搜索与行动：迈向真实世界的AI智能体

本期MLNLP学术Talk邀请了中国人民大学博士生李晓熙为我们带来"推理、搜索与行动：迈向真实世界的AI智能体"的主题报告。

2026-05-06

刚刚，GPT-5.5Instant全员免费！数亿人的ChatGPT变了

刚刚，GPT-5.5Instant全员免费！数亿人的ChatGPT变了

推荐

2026-05-06

Book学术官方微信

Book学术官方微信

Book学术文献互助

Book学术文献互助群
群号：604180095

文献互助智能选刊最新文献互助须知联系我们：info@booksci.cn

Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。

Copyright © 2023 Book学术 All rights reserved.

京公网安备 11010802042870号京ICP备2023020795号-1