告别CLIP!DeepSeek-OCR-2开源:首创视觉因果流,用LLM重构视觉编码
PaperWeekly
2026-01-27 14:02
文章摘要
背景:在多模态大模型领域,传统视觉编码器(如ViT或CLIP)在处理复杂文档时,因采用光栅扫描方式将二维图像展平为一维序列,常导致语义与阅读顺序错配。研究目的:DeepSeek团队开源DeepSeek-OCR-2模型,旨在通过创新的“视觉因果流”范式,使用纯LLM架构重构视觉编码,以解决文档解析中的顺序混乱问题,并验证原生多模态编码的可行性。结论:该模型摒弃了CLIP视觉分支,引入DeepEncoder V2架构,通过可学习查询和因果注意力机制,将视觉信息按语义逻辑动态重排为1D序列。实验表明,它在显著降低Token开销的同时,提升了阅读顺序准确性和生成稳定性,证明了逻辑流在文档理解中的重要性,但也指出其信息有损压缩策略可能不适用于需要像素级精度的任务。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。