AttentionIsAllYouNeed作者再出手：Transformer99%稀疏，还能更快？

机器学习算法与自然语言处理 2026-05-10 07:49

文章摘要

背景：随着大型语言模型规模的增长，Transformer架构的推理和训练成本急剧上升，而研究发现FFN层中大量隐藏激活接近于零，存在巨大稀疏化潜力。研究目的：本文由《Attention Is All You Need》作者之一Llion Jones参与，旨在通过利用FFN激活稀疏性，在不影响下游任务表现的前提下，将理论上的计算节省转化为GPU上的实际速度、能耗和显存收益。结论：研究团队设计了一种简单的L1正则化诱导高稀疏激活，并提出了TwELL（Tile-wise ELLPACK）稀疏打包格式和定制的CUDA Kernel，在推理阶段避免了传统格式转换的开销，实现了高达20.5%的前向计算提速和30%的速度提升。在训练阶段，通过混合路由机制处理非均匀稀疏，实现了21.9%的训练步骤提速和显著的显存降低。实验表明，模型规模越大，稀疏加速的收益越明显，且稀疏激活为理解模型计算分配提供了新视角。