首页 > 计算机科学

仅需73美元!Karpathy单卡复现GPT-2,揭秘Muon优化器与架构细节

PaperWeekly 2026-02-02 17:10
文章摘要
本文背景是AI模型训练成本高昂,2019年训练GPT-2需数万美元。研究目的是展示Andrej Karpathy如何通过软件栈、优化算法和数据质量的综合改进,大幅降低复现GPT-2的成本与时间。核心结论是,使用单节点8xH100,仅耗时约3小时、成本73美元即可完成训练,并在CORE评估指标上超越原GPT-2。这得益于Muon优化器的分层策略、极简的架构调整(如ReLU²激活、Value Embeddings)以及高效的数据处理,证明了优化与细节对降低算力壁垒的关键作用。
仅需73美元!Karpathy单卡复现GPT-2,揭秘Muon优化器与架构细节
本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者速来电或来函联系。
最新文章
仅需73美元!Karpathy单卡复现GPT-2,揭秘Muon优化器与架构细节
仅需73美元!Karpathy单卡复现GPT-2,揭秘Muon优化器与架构细节
从 4 万美元到 73 美元,算力不再是壁垒,优化与细节才是王道。2019 年 2 月,OpenAI 训练 1.5B 参数的 GPT-2 需要调用 32 个 TPU v3 芯片,耗时一周,云端算力成本
10小时前
10/8/6/4遭一票否决?ICLR 2026爆争议:AC竟用NeurIPS记忆跨会清算
10/8/6/4遭一票否决?ICLR 2026爆争议:AC竟用NeurIPS记忆跨会清算
你以为 10 分稳了?AC 用亲身经历告诉你:只要我有记忆,你换了会议也没用。ICLR 2026 评审结果公布后,编号为 8646 的投稿引发了不小的震动。这篇论文拿到了 10 分 (Strong A
2026-02-01
GPT之父Alec Radford新作:从文档级到Token级,重塑大模型数据过滤范式
GPT之父Alec Radford新作:从文档级到Token级,重塑大模型数据过滤范式
Token 级数据清洗不仅更强,还能让攻击成本飙升 7000 倍。作为定义了 GPT-2 范式的核心人物,Alec Radford 曾向业界证明了数据规模的价值。在 2024 年离开 OpenAI 后
2026-01-31
告别黑盒!清华发布FaithLens,首创强可解释性的大模型幻觉检测利器
告别黑盒!清华发布FaithLens,首创强可解释性的大模型幻觉检测利器
近年来,大语言模型在检索增强生成(RAG)和文本摘要等任务中表现出惊人的潜力。然而,“忠实度幻觉”(Faithfulness Hallucination)——即模型生成的回复与其提供的参考文档不一致或
2026-01-30
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:604180095
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1