刚刚,智谱开源GLM-4.6V:从看懂图片到自动完成任务
学术头条
2025-12-08 19:46
文章摘要
背景:智谱公司推出了GLM-4.6V系列多模态大模型,作为GLM系列在多模态方向的重要迭代,旨在提升视觉理解精度和工具调用能力。研究目的:该模型通过将训练时上下文窗口提升到128k tokens,并原生集成Function Call能力,打通从视觉感知到可执行行动的链路,为多模态Agent提供技术底座,同时优化成本,降低API价格。结论:GLM-4.6V在多个评测基准上表现优异,达到同参数规模SOTA,支持智能图文创作、识图购物、前端复刻、长文档视频理解等应用场景,并已开源模型权重和推理代码,便于开发者和研究者快速集成与部署。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。