首页 > 计算机科学

一句话生成LoRA、长文档瞬间内化:大模型更新成本还能这样摊销?

PaperWeekly 2026-03-04 18:31
文章摘要
背景:Transformer架构在处理长序列时面临注意力计算二次方增长和KV-Cache显存占用高的瓶颈,同时监督微调(SFT)流水线也存在算力消耗大和时间延迟高的问题。研究目的:Sakana AI提出更新成本摊销框架,旨在通过元训练阶段的超网络,将权重更新和上下文处理开销前置,从而在推理阶段实现快速、低显存占用的任务适配和长文档处理。结论:Doc-to-LoRA能够将长文档即时内化为LoRA适配器,显著降低推理显存(如处理128K token时从12GB降至50MB以内),并实现亚秒级更新延迟;Text-to-LoRA则通过自然语言描述直接生成任务专属LoRA权重,在零样本任务自适应上性能优异。两者共同推动了高效、低延迟的模型部署,为AI Agent的发展奠定了基础。
一句话生成LoRA、长文档瞬间内化:大模型更新成本还能这样摊销?
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
一句话生成LoRA、长文档瞬间内化:大模型更新成本还能这样摊销?
一句话生成LoRA、长文档瞬间内化:大模型更新成本还能这样摊销?
显存暴降至 50MB!Sakana AI 提出更新成本摊销,打破长文本 KV-Cache 瓶颈。面对十万乃至百万级别的超长序列输入,Transformer 架构中呈二次方增长的注意力计算与 KV-Ca
17小时前
通义开源Mobile-Agent-v3.5:面向多端自动化操作,20+榜单实现SOTA
通义开源Mobile-Agent-v3.5:面向多端自动化操作,20+榜单实现SOTA
拒绝原地打转!通义实验室开源多端 GUI 基座,会反思、能调用工具,让 Agent 真正把活干完。说起 GUI Agent,最尴尬的时刻大概不是它点错按钮,而是它一本正经地操作了半天,最后把你带回了原
2026-03-03
Mac变身AI超算!用Claude逆向M4芯片,纯推理引擎跑通Transformer
Mac变身AI超算!用Claude逆向M4芯片,纯推理引擎跑通Transformer
你的 Mac 桌面,刚刚变成了一台超高能效的 AI 超算。苹果 M4 芯片内置的神经网络引擎(ANE)原本有着严格的官方定位:仅限推理,其底层权限被彻底封锁。但在近期,一项系统级开源项目硬是砸开了这个
2026-03-03
150B tokens实测反转!你的DeepSeek mHC可能根本不需要“m”约束
150B tokens实测反转!你的DeepSeek mHC可能根本不需要“m”约束
我们每天都在跟进最新的顶会和明星模型,但纸面上的精妙公式在实际训练中总是无懈可击吗?\u00A9作者 | 谢天单位 | 微软亚洲研究院研究员研究方向 | 大模型预训练算法最近几周在学习 DeepSeek mHC
2026-03-02
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1