首页 > 计算机科学

别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学

机器学习算法与自然语言处理 2026-02-09 00:00
文章摘要
背景:在Transformer训练中,残差流常出现特定维度激活值异常高(Residual Sink)和注意力图中首个token权重过高(Attention Sink)的现象,传统方法如截断(Clip)可能破坏模型稳定性。研究目的:阿里Qwen团队通过数学分析,揭示这些异常值是模型在归一化约束下自发演化出的重缩放机制,用于全局特征调节,并提出了GatedNorm架构改进。结论:GatedNorm通过显式门控机制替代不稳定的异常值,有效解决了低比特量化中的精度损失问题,提升了模型在W4A4量化下的性能,为Transformer架构优化提供了新方向。
别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
ICLR2026|UIUC:一行代码彻底解决LLM推理的过度思考!
ICLR2026|UIUC:一行代码彻底解决LLM推理的过度思考!
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特
2026-02-08
港大张清鹏Nature子刊最新研究:AI结合血液多组学,提前15年预测心血管疾病风险
港大张清鹏Nature子刊最新研究:AI结合血液多组学,提前15年预测心血管疾病风险
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特
2026-02-08
王慧文欲投资OpenClaw赛道,再发英雄帖:「需要融资的欢迎联系我」
王慧文欲投资OpenClaw赛道,再发英雄帖:「需要融资的欢迎联系我」
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特
2026-02-08
别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学
别再暴力Clip了!千问提出GatedNorm,统一视角揭秘残差流玄学
MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特
2026-02-08
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1