GPT之父AlecRadford新作：从文档级到Token级，重塑大模型数据过滤范式

机器学习算法与自然语言处理 2026-02-03 08:00

文章摘要

背景：大模型预训练数据过滤通常采用文档级方法，但面临精度与召回率的矛盾，可能误伤通用知识。研究目的：探讨将过滤粒度从文档级精细化到Token级，以提升模型安全性和能力保留。结论：Token级过滤在帕累托前沿上优于文档级过滤，能实现高达7000倍的计算效率阻滞，增强对抗鲁棒性，并意外提升模型的拒绝能力，同时减少对通用能力的损耗。

GPT之父AlecRadford新作：从文档级到Token级，重塑大模型数据过滤范式

阅读全文

本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者速来电或来函联系。

最新文章

大语言模型的自提升：技术综述与未来展望

随着大语言模型（LLMs）的持续演进，单纯依赖人类监督进行模型改进的成本日益高昂，且在可扩展性（Scalabi

2026-04-02

ClaudeCode内部复盘的Skills实战经验公开：好Skill的5个共性