150B tokens实测反转!你的DeepSeek mHC可能根本不需要“m”约束
PaperWeekly
2026-03-02 19:08
文章摘要
本文探讨了DeepSeek mHC模型中引入流形约束(manifold constraint)的必要性。背景方面,mHC通过Sinkhorn-Knopp算法将超连接(HC)中的混合矩阵约束为双随机矩阵,旨在稳定训练并保持范数。研究目的旨在验证此约束是否不可或缺,作者通过150B tokens的预训练实验对比了不同变体。结论表明,将混合矩阵直接替换为恒等矩阵(Identity)效果优于原版mHC及其他变体,因为双随机矩阵的累积乘积会导致信号坍缩为均匀混合矩阵,损害流的语义一致性,而恒等矩阵避免了坍缩,简化了学习过程,且无需昂贵的Sinkhorn迭代。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。