Mamba作者再发神作：套娃式加速解码SSD，突破vLLM/SGLang极限

PaperWeekly 2026-03-05 18:05

文章摘要

本文介绍了由Tri Dao团队提出的Speculative Speculative Decoding (SSD)框架，旨在突破大模型推理中自回归解码的串行瓶颈。背景上，传统投机解码(SD)虽通过草稿模型预测token来加速，但仍受起草与验证间串行依赖的限制。研究目的是通过SSD实现起草与验证的全异步并行，其核心机制是让草稿模型在验证时提前预测结果并生成推测token，利用推测缓存消除延迟。为实现此框架，团队设计了Saguaro算法，解决了验证结果预测的算力分配、残差分布操纵和大batch下退避策略三大挑战。结论表明，SSD在Llama-3和Qwen-3模型上实现了相较于基线最高5倍的提速，并拓宽了延迟与吞吐量的帕累托前沿，证明了系统级调度的性能潜力。

阅读全文

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

最新文章

NeurIPS 2025 | 当系统算法遇上机器学习：GUARD开启学习增强缓存新范式

过去几年，机器学习在系统领域的“下沉”非常明显：它不再只做单纯的推荐、内容分类、搜索排序，还开始直接参与系统里的底层决策，例如基于 ML 模型的调度算法、缓存算法、负载均衡算法等。同时，ML for

17小时前

Mamba作者再发神作：套娃式加速解码SSD，突破vLLM/SGLang极限

当大模型还在验证，小模型已算好下一步。全异步架构彻底终结解码串行等待。大模型推理的核心瓶颈长期在于自回归解码的串行本质。投机解码（Speculative Decoding, SD）通过引入一个轻量级的

17小时前

一句话生成LoRA、长文档瞬间内化：大模型更新成本还能这样摊销？

显存暴降至 50MB！Sakana AI 提出更新成本摊销，打破长文本 KV-Cache 瓶颈。面对十万乃至百万级别的超长序列输入，Transformer 架构中呈二次方增长的注意力计算与 KV-Ca

2026-03-04

通义开源Mobile-Agent-v3.5：面向多端自动化操作，20+榜单实现SOTA

拒绝原地打转！通义实验室开源多端 GUI 基座，会反思、能调用工具，让 Agent 真正把活干完。说起 GUI Agent，最尴尬的时刻大概不是它点错按钮，而是它一本正经地操作了半天，最后把你带回了原

2026-03-03