Mamba作者再发神作:套娃式加速解码SSD,突破vLLM/SGLang极限
PaperWeekly
2026-03-05 18:05
文章摘要
本文介绍了由Tri Dao团队提出的Speculative Speculative Decoding (SSD)框架,旨在突破大模型推理中自回归解码的串行瓶颈。背景上,传统投机解码(SD)虽通过草稿模型预测token来加速,但仍受起草与验证间串行依赖的限制。研究目的是通过SSD实现起草与验证的全异步并行,其核心机制是让草稿模型在验证时提前预测结果并生成推测token,利用推测缓存消除延迟。为实现此框架,团队设计了Saguaro算法,解决了验证结果预测的算力分配、残差分布操纵和大batch下退避策略三大挑战。结论表明,SSD在Llama-3和Qwen-3模型上实现了相较于基线最高5倍的提速,并拓宽了延迟与吞吐量的帕累托前沿,证明了系统级调度的性能潜力。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。