首页 > 计算机科学

别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学

PaperWeekly 2026-02-03 14:55
文章摘要
背景:Transformer模型训练中,残差流常出现特定维度的激活值异常高(Residual Sink)以及注意力图中首个token权重过高(Attention Sink)的现象,传统工程方法如截断(Clip)试图压制这些异常值以提升数值稳定性或量化效果。研究目的:阿里Qwen团队研究这些异常值的本质,旨在统一解释其成因并探索更稳定的架构改进方案。结论:研究发现异常值是模型在归一化(如RMSNorm)约束下自发演化出的重缩放机制,用于全局调节特征幅度,强制去除会破坏模型性能。因此,团队提出GatedNorm,一种参数高效的门控归一化方法,显式提供缩放能力,消除对不稳定异常值的依赖,从而有效解决低比特量化(如FP4)的精度损失问题,提升模型鲁棒性。
别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
代码直接变论文!MSRA同款Agent库开源,读Repo一键生成初稿
代码直接变论文!MSRA同款Agent库开源,读Repo一键生成初稿
当你还在反复调试 Prompt 时,隔壁组已经用 Agent 把代码直接变成了顶会论文。科研中最绝望的时刻往往不是没有 idea,而是实验跑通后,对着丑陋的 Visio 架构图调配色,或者对着空白的
2026-02-03
别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学
别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学
在 Transformer 的训练过程中,只要稍微留心观察权重或激活值的分布,你就会发现残差流里的那个怪象:无论输入何种 token,某些固定维度的激活值始终显著高于其他维度。与此同时,Attenti
2026-02-03
仅需73美元!Karpathy单卡复现GPT-2,揭秘Muon优化器与架构细节
仅需73美元!Karpathy单卡复现GPT-2,揭秘Muon优化器与架构细节
从 4 万美元到 73 美元,算力不再是壁垒,优化与细节才是王道。2019 年 2 月,OpenAI 训练 1.5B 参数的 GPT-2 需要调用 32 个 TPU v3 芯片,耗时一周,云端算力成本
2026-02-02
10/8/6/4遭一票否决?ICLR 2026爆争议:AC竟用NeurIPS记忆跨会清算
10/8/6/4遭一票否决?ICLR 2026爆争议:AC竟用NeurIPS记忆跨会清算
你以为 10 分稳了?AC 用亲身经历告诉你:只要我有记忆,你换了会议也没用。ICLR 2026 评审结果公布后,编号为 8646 的投稿引发了不小的震动。这篇论文拿到了 10 分 (Strong A
2026-02-01
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1