别再暴力Clip了！千问提出GatedNorm，统一视角揭秘残差流玄学

PaperWeekly 2026-02-03 14:55

文章摘要

背景：Transformer模型训练中，残差流常出现特定维度的激活值异常高（Residual Sink）以及注意力图中首个token权重过高（Attention Sink）的现象，传统工程方法如截断（Clip）试图压制这些异常值以提升数值稳定性或量化效果。研究目的：阿里Qwen团队研究这些异常值的本质，旨在统一解释其成因并探索更稳定的架构改进方案。结论：研究发现异常值是模型在归一化（如RMSNorm）约束下自发演化出的重缩放机制，用于全局调节特征幅度，强制去除会破坏模型性能。因此，团队提出GatedNorm，一种参数高效的门控归一化方法，显式提供缩放能力，消除对不稳定异常值的依赖，从而有效解决低比特量化（如FP4）的精度损失问题，提升模型鲁棒性。

阅读全文

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

最新文章

代码直接变论文！MSRA同款Agent库开源，读Repo一键生成初稿

当你还在反复调试 Prompt 时，隔壁组已经用 Agent 把代码直接变成了顶会论文。科研中最绝望的时刻往往不是没有 idea，而是实验跑通后，对着丑陋的 Visio 架构图调配色，或者对着空白的

2026-02-03

别再暴力Clip了！千问提出GatedNorm，统一视角揭秘残差流玄学

在 Transformer 的训练过程中，只要稍微留心观察权重或激活值的分布，你就会发现残差流里的那个怪象：无论输入何种 token，某些固定维度的激活值始终显著高于其他维度。与此同时，Attenti

2026-02-03

仅需73美元！Karpathy单卡复现GPT-2，揭秘Muon优化器与架构细节

从 4 万美元到 73 美元，算力不再是壁垒，优化与细节才是王道。2019 年 2 月，OpenAI 训练 1.5B 参数的 GPT-2 需要调用 32 个 TPU v3 芯片，耗时一周，云端算力成本

2026-02-02

10/8/6/4遭一票否决？ICLR 2026爆争议：AC竟用NeurIPS记忆跨会清算

你以为 10 分稳了？AC 用亲身经历告诉你：只要我有记忆，你换了会议也没用。ICLR 2026 评审结果公布后，编号为 8646 的投稿引发了不小的震动。这篇论文拿到了 10 分 (Strong A

2026-02-01