Transformer范式变了？稀疏线性混合架构SALA发布，单卡5090跑通百万长文

PaperWeekly 2026-02-12 13:50

文章摘要

背景：Transformer架构的全注意力机制在处理长文本时面临平方级计算复杂度和高显存占用的瓶颈，制约了超长上下文处理能力。研究目的：OpenBMB团队提出稀疏-线性混合注意力架构SALA，并发布基于该架构的文本模型MiniCPM-SALA，旨在平衡长文本处理效率与模型性能。结论：MiniCPM-SALA在保持与同规模全注意力模型相当的通用能力（如知识问答、数学推理）的同时，在长上下文基准测试中表现优异，支持百万词元上下文长度推理，在云端和消费级GPU上实现显著加速，例如在256K词元长度下推理速度达Qwen3-8B的3.5倍，展示了高效长文本处理的潜力。

Transformer范式变了？稀疏线性混合架构SALA发布，单卡5090跑通百万长文

阅读全文

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

最新文章

Transformer范式变了？稀疏线性混合架构SALA发布，单卡5090跑通百万长文

众所周知，Transformer 及其核心的全注意力机制（Full Attention）虽长期占据大模型架构的核心地位，但平方级计算复杂度、高额显存占用的瓶颈，早已成为实现超长上下文处理与模型规模化应

9小时前

LeCun团队连发三文：从稀疏表征到梯度规划，世界模型技术栈再进阶

针对世界模型落地难题，LeCun 团队连发三文，给出从算法到工程的全栈最优解。近期，Yann LeCun 团队连发三文，重点攻关非生成式世界模型（World Models）当前面临的三大技术痛点。非生

2026-02-09

比二维码还小！Meta发布TinyLoRA：13个参数媲美全量，RL完胜SFT

26 字节，13 个参数。这是让 7B 模型数学能力逼近全量微调的全部数据。下面这张看似普通的二维码，实则包含了一个名为 TinyLoRA 的微调适配器的全部参数。〓图1. TinyLoRA 权重二

2026-02-06

ICLR 2026 | GPT-5竟给废图打高分？首个图表“信达雅”评测基准发布

\uD83E\uDE84 你的 Dashboard 好看又精准吗？也许，是时候让 AI 来严肃地打一次分了。引言：当 AI 开始 “看图思考”在这个“数据驱动决策”的时代，图表早已不是“锦上添花”的装饰——它是传递复杂信

2026-02-04