AttentionIsAllYouNeed作者再出手:Transformer99%稀疏,还能更快?
机器学习算法与自然语言处理
2026-05-10 07:49
文章摘要
背景:随着大型语言模型规模的增长,Transformer架构的推理和训练成本急剧上升,而研究发现FFN层中大量隐藏激活接近于零,存在巨大稀疏化潜力。研究目的:本文由《Attention Is All You Need》作者之一Llion Jones参与,旨在通过利用FFN激活稀疏性,在不影响下游任务表现的前提下,将理论上的计算节省转化为GPU上的实际速度、能耗和显存收益。结论:研究团队设计了一种简单的L1正则化诱导高稀疏激活,并提出了TwELL(Tile-wise ELLPACK)稀疏打包格式和定制的CUDA Kernel,在推理阶段避免了传统格式转换的开销,实现了高达20.5%的前向计算提速和30%的速度提升。在训练阶段,通过混合路由机制处理非均匀稀疏,实现了21.9%的训练步骤提速和显著的显存降低。实验表明,模型规模越大,稀疏加速的收益越明显,且稀疏激活为理解模型计算分配提供了新视角。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。