首页 > 医学

arXiv|NovoMolGen:重新思考分子语言模型预训练

智药邦 2025-09-26 08:00
文章摘要
背景:药物发现面临高效探索庞大化学空间的挑战,分子语言模型(Mol-LLMs)因其可扩展性和与NLP模型的兼容性展现出潜力,但直接套用NLP预训练范式存在差异,且缺乏对关键要素如何影响性能的系统理解。研究目的:通过大规模系统性实验(超过30,000次),探究分子表示、分词策略、模型规模和数据集大小等预训练关键要素对Mol-LLMs分子生成性能的影响,并基于此构建高性能的NovoMolGen模型家族。结论:研究发现模型性能早期饱和,小模型(如32M参数)表现优异;不同分子表示和分词策略各有权衡,BPE整体更优;预训练损失与下游性能弱相关。NovoMolGen在无约束生成和目标导向优化任务上取得新的SOTA结果,但存在依赖合成可及性数据、缺乏功能语义等不足,未来需改进训练目标、引入早期强化学习并拓展应用场景。
arXiv|NovoMolGen:重新思考分子语言模型预训练
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
关于账号进行迁移的说明
关于账号进行迁移的说明
因运营需要,你所关注的账号"智药邦"将进行账号迁移。届时本账号的业务、功能将转移至新账号"智药邦"。迁移详情如下:旧账号ID:gh_823ae1837fa9旧账号名称:智药邦旧账号主体:上海邦越医药科
2025-10-20
Sci Adv丨陈洛南课题组为计算生物学中的干预性因果推断提供新思路
Sci Adv丨陈洛南课题组为计算生物学中的干预性因果推断提供新思路
从观测数据中进行因果推断是自然科学和工程学诸多领域的一个基础性问题,其中包括生物学、地球科学、经济学、医学、神经科学以及机器学习。在复杂生物系统中有效识别因果关系,不仅能为调控机制提供更深刻的见解,还
2025-10-20
Cell|西湖大学卢培龙/黄晶等:从头设计新型电压门控阴离子通道
Cell|西湖大学卢培龙/黄晶等:从头设计新型电压门控阴离子通道
离子通道在神经传导、肌肉收缩和细胞信号转导等关键生物学过程中发挥重要作用,其开闭状态受电压、配体或机械力等特定刺激的精确调控。从头设计能够响应外界刺激并发生构象变化的跨膜蛋白,是蛋白质工程领域的重要目
2025-10-20
专家点评Cell | 卢培龙团队及其合作者从头设计新型电压门控阴离子通道
专家点评Cell | 卢培龙团队及其合作者从头设计新型电压门控阴离子通道
2025年10月16日,西湖大学生命科学学院遗传物质表达与重构全国重点实验室卢培龙研究团队,联合西湖实验室/西湖大学李波、黄晶等团队在Cell期刊发表题为“De novo designed volta
2025-10-20
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1