首页 > 计算机科学

别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学

机器学习算法与自然语言处理 2026-02-07 00:00
文章摘要
背景:在Transformer训练中,残差流常出现特定维度激活值异常高(Residual Sink)和注意力图中首个token权重过高(Attention Sink)的现象,传统方法如截断(Clip)试图解决数值稳定性问题,但可能破坏模型性能。研究目的:阿里Qwen团队通过分析指出这些异常值是模型在归一化约束下自发形成的重缩放机制,旨在统一解释Sink现象,并提出一种参数高效的架构改进——GatedNorm,以替代不稳定的异常值,从而解决低比特量化中的精度难题。结论:研究证明异常值是模型实现特征调节的必要条件,强制去除会导致性能下降;GatedNorm通过引入显式门控机制,有效消除异常值,使特征分布平滑,提升了模型在低比特量化(如FP4)下的鲁棒性和准确性,为架构优化提供了新方向。
别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破
Stable-DiffCoder超越自回归模型!扩散模型在代码生成取得新突破
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特
2026-02-06
别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学
别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特
2026-02-06
强化学习远不是最优,CMU刚刚提出最大似然强化学习
强化学习远不是最优,CMU刚刚提出最大似然强化学习
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特
2026-02-06
万亿市值一夜蒸发!ClaudeCowork血洗全球软件业,老黄急了
万亿市值一夜蒸发!ClaudeCowork血洗全球软件业,老黄急了
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特
2026-02-06
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1