首页 > 计算机科学

大模型上下文卡壳?MIT 用线性回归轻松破局

数据派THU 2026-02-28 17:00
文章摘要
背景:随着大模型处理长上下文任务(如推理、多轮对话)的需求增长,存储历史Token键值对(KV)缓存导致显存占用成为关键瓶颈。传统压缩方法在高压缩率下性能下降快,而现有方案如Cartridges虽有效但端到端梯度优化成本极高。研究目的:MIT团队提出一种名为“Attention Matching”的新方法,旨在通过线性回归等高效线性代数技术,快速压缩KV缓存,以极低成本实现高压缩率并保持模型性能。结论:该方法将复杂的压缩问题分解为键选择、偏置拟合和值拟合三个可高效求解的线性子任务,无需梯度下降,在保持与Cartridges相当压缩精度的同时,将压缩时间缩短了两个数量级,并适用于在线连续压缩等实际场景,为资源受限下的长周期计算提供了可行方案。
大模型上下文卡壳?MIT 用线性回归轻松破局
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
首个大规模记忆湖发布,AI Infra跑步进入“记忆”时代
首个大规模记忆湖发布,AI Infra跑步进入“记忆”时代
来源:人工智能前沿讲习本文约3200字,建议阅读6分钟本文介绍了 AI 记忆平台 MemoryLake 的核心能力、优势及各行业落地应用与前景。LLM是AI的“第一大脑”,记忆平台是AI的“第二大脑”
11小时前
大模型上下文卡壳?MIT 用线性回归轻松破局
大模型上下文卡壳?MIT 用线性回归轻松破局
本文约2400字,建议阅读5分钟本文介绍了 MIT 团队的 Attention Matching 方法,用线性回归破解大模型上下文瓶颈。突破大模型无限上下文瓶颈的核心解法是什么?MIT 团队给出的答案
11小时前
不用堆算力,华大新出的 Gengram,重新定义基因组建模
不用堆算力,华大新出的 Gengram,重新定义基因组建模
本文约3200字,建议阅读6分钟本文介绍了华大 Genos 团队推出 Gengram 轻量插件,大幅提升基因组模型性能。华大生命科学研究院与浙江之江实验室组成的 Genos 团队在 DeepSeek
2026-02-27
【博士论文】数据驱动决策:通过数据集成与预测性决策支持优化重症监护
【博士论文】数据驱动决策:通过数据集成与预测性决策支持优化重症监护
来源:专知本文约1000字,建议阅读5分钟本研究通过一套从数据获取、标注到特征工程及模型开发的结构化流程,展示了如何设计并评估具有临床意义的算法。本论文探讨了重症监护及围术期领域中,数据驱动型临床决策
2026-02-26
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1