文献互助智能选刊最新文献

高级搜索发布求助登录注册

首页 > 计算机科学

Agentic能力从哪里来？拆解基座大模型GLM-5/MiniMaxM2/KimiK2.5的训练过程

机器学习算法与自然语言处理 2026-04-08 00:50

文章摘要

本文以GLM-5为主线，结合MiniMax M2和Kimi K2.5，系统阐述了现代基座大模型如何通过分阶段训练获得Agentic（代理）、Reasoning（推理）和Coding（编程）能力。背景是AI进入Agent时代，需要模型具备复杂任务执行能力。研究目的是拆解从预训练到后训练对齐的完整链路，揭示分阶段、定向强化的训练方法。结论指出，现代大模型训练已演变为“不同能力分阶段建模、强化并最终统一收敛”的过程，涉及预训练、中期定向增强、监督微调、多阶段强化学习（推理RL、代理RL、通用RL）以及在线跨阶段蒸馏，并重点探讨了Agentic数据合成、训练-推理不一致、异步框架Off-Policy问题及多智能体并行等核心挑战与解决方案。

Agentic能力从哪里来？拆解基座大模型GLM-5/MiniMaxM2/KimiK2.5的训练过程

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

最新文章

Agentic能力从哪里来？拆解基座大模型GLM-5/MiniMaxM2/KimiK2.5的训练过程

Agentic能力从哪里来？拆解基座大模型GLM-5/MiniMaxM2/KimiK2.5的训练过程

这次分享主要围绕Agent时代的基座大模型训练方法展开,重点以GLM-5为主线，MiniMaxM2和KimiK2.5为支线，系统梳理一个基模从预训练到后训练对齐、从数据构造到强化学习优化的完整链路

2026-04-07

TPAMI 2026 | 当考试开始“因人出题”：中科大发布首篇自适应测评综述

TPAMI 2026 | 当考试开始“因人出题”：中科大发布首篇自适应测评综述

从千人一卷到因人出题

2026-04-07

搞发动机的张雪，没啃过一篇AI论文，却活成了最强智能体！

搞发动机的张雪，没啃过一篇AI论文，却活成了最强智能体！

他没读过一篇AI领域的论文。但他用“搞发动机”这20年的岁月，写出了一篇最硬核的“智能体（Agent）”论文。

2026-04-07

刚刚，Claude4小时血洗全球最安全系统！人类最后防线失守

刚刚，Claude4小时血洗全球最安全系统！人类最后防线失守

AI，正式跨过卢比孔河

2026-04-07

Book学术官方微信

Book学术文献互助

Book学术文献互助群
群号：604180095

文献互助智能选刊最新文献互助须知联系我们：info@booksci.cn

Book学术提供免费学术资源搜索服务，方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。

Copyright © 2023 Book学术 All rights reserved.

京公网安备 11010802042870号京ICP备2023020795号-1