Nat Commun丨沈宁团队开发大模型RNA相关预测的统一基准测试框架
BioArt
2025-12-24 17:56
文章摘要
背景:RNA在基因表达调控、蛋白质合成及疾病发生机制中发挥核心作用,随着高通量测序数据的增长,预训练基因组语言模型(gLMs)成为从序列中破译生命密码的重要工具,但现有模型规模庞大、架构复杂,且缺乏系统性性能评估,限制了其应用。研究目的:为系统评估gLMs在RNA相关预测任务中的表现,沈宁团队开发了统一的基准测试框架,对11种主流gLMs在非编码RNA分类、m6A修饰预测、可变剪接位点预测和翻译效率预测四类任务中进行多指标对比,旨在提供模型选择指南。结论:研究发现模型性能受预训练数据匹配度、输入长度和分词策略交互影响,并非“模型越大越好”,并提出了基于数据量、任务类型和计算资源的选型导引;gLMs在小样本和长上下文场景具优势,但存在长序列处理与计算成本的矛盾,未来需融合多组学数据和高效架构。该工作填补了评测空白,并开源代码框架推动领域发展。
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。