首页 > 计算机科学

ICLR 2026 | 图模型也能合并?多任务融合框架G-Merging,仅5%参数反超微调

PaperWeekly 2026-03-06 21:41
文章摘要
本文针对图神经网络在多任务场景下面临的模型存储与计算负担问题,提出了一种名为G-Merging的图模型融合框架。研究背景指出,传统“预训练+下游微调”范式需为每个任务保存独立模型,效率低下。研究目的是通过融合多个微调模型的参数,构建一个统一且高效的多任务模型。该方法包含初步参数融合、拓扑感知对齐和无参数的MoE路由三个步骤,利用任务向量叠加、拓扑感知Wasserstein距离损失和动态路由机制,在仅训练约5%-10%参数的情况下,于多个分子图分类任务上取得了优于基线方法甚至部分单任务微调模型的性能。结论表明,该工作首次系统探索了图神经网络的模型融合,验证了其可行性,为多任务图学习提供了高效部署的新思路。
ICLR 2026 | 图模型也能合并?多任务融合框架G-Merging,仅5%参数反超微调
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
首个Token为何沦为数值垃圾桶?LeCun团队解构大模型底层机制
首个Token为何沦为数值垃圾桶?LeCun团队解构大模型底层机制
学术界长期以为大值激活与 Attention Sink 强绑定,LeCun 团队打破了这一常识。在 Transformer 架构中,长期存在两个如影随形的内部计算现象:大值激活(Massive Act
20小时前
人大 × 字节团队破解muP理论分歧:用谱条件统一宽深Scaling
人大 × 字节团队破解muP理论分歧:用谱条件统一宽深Scaling
\u00A9作者 | 郑晨宇单位 | 中国人民大学研究方向 | 机器学习理论概要muP 由于其能够保持模型特征学习稳定、解锁超参迁移能力的优良特性,已经被广泛应用于大模型的宽度 scaling 之中。然而,相较
20小时前
ICLR 2026 | 图模型也能合并?多任务融合框架G-Merging,仅5%参数反超微调
ICLR 2026 | 图模型也能合并?多任务融合框架G-Merging,仅5%参数反超微调
研究背景不同行业的图数据具有天然的差异化特性,使得图模型的学习面临着更严峻的多域多任务泛化挑战。在图学习领域,基础模型范式——“预训练 + 下游微调”的范式成为主流。研究者通常先在大规模图数据上进行自
2026-03-06
普林斯顿陈丹琦团队:免微调破解长文本衰退,推理性能提升25%
普林斯顿陈丹琦团队:免微调破解长文本衰退,推理性能提升25%
128K 长文本频频失忆?陈丹琦团队提出纯解码算法 DYSCO,免微调让推理性能提升 25%。当前各大模型厂商在技术报告中都宣称支持 128K 甚至更长的上下文窗口。然而,实际测试表明,随着输入长度的
2026-03-06
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1