面向大语言模型的数据准备

梁昊; 黄钲浩; 刘芮彤; 王宇涵; 强美伊; 赵正阳; 申程宇; 何聪辉; 张文涛; 崔斌

doi:10.1007/s11390-026-5948-8

摘要:

文章摘要图/表：

图1. 物理人工智能的三大组成部分

研究背景 随着大规模高质量训练数据的普及，大语言模型在各个领域展现出了卓越的泛化能力。然而，尽管模型架构和训练策略得到了广泛关注，数据准备这一核心环节却日益成为提升模型性能和通用性的关键驱动力。目前该领域面临的主要挑战包括：现有的综述往往将数据准备视为次要组件，缺乏系统性研究；现有文献在时效性上无法跟上数据算子和工作流的快速演进；此外，行业内缺乏针对初学者的实践指导，如缺乏精心策划的数据集资源和端到端的操作参考。

目的本研究旨在弥补现有综述的局限性，提供一个全面且及时的 LLM 数据准备算法与工作流概览。通过引入DataFlow系统以及一种全新的算子体系，将数据算子定义为基本处理单元，并系统性地阐述如何将多个算子组合成复杂的数据工作流。该研究旨在为研究人员和从业者提供一个实用的参考框架，帮助他们快速掌握并实施针对预训练（Pre-training）、持续预训练（Continual Pre-training）及后期训练（Post-training）的高效数据准备策略。

方法该研究将数据准备定义为大模型的基石，通过四个核心步骤（采集、过滤、生成、评估）将原始数据转化为训练信号。其核心方法论建立在数据算子（Data Operators）与数据工作流（Data Workflows）的分类体系之上：预训练（PT）阶段的方法论：采集演进：从最初追求规模的万亿级 Web 抓取（如 CCNet），演进到强调透明度与配方的混合模式（如 RedPajama-V2 提供 40+ 质量信号），再到针对特定能力的富化（如 OpenWebMath 保留 LaTeX 格式）。四维过滤体系：建立了针对敏感信息（PII/毒性）、社会偏见（通过 CDA/CDS 增强）、冗余性（精确哈希、MinHash 模糊去重及语义去重）以及语言质量控制的严苛过滤标准。持续预训练（CPT）阶段的方法论：三维富化：通过收集特定领域语料、扩展低资源语言覆盖，以及利用 Wikipedia 增量更新等手段确保知识的“时效性” 。模型启发式过滤：创新性地利用近乎收敛的 LLM 检查点或小型代理模型对新数据进行效用评分。后期训练（Post-training）阶段的方法论：SFT 数据构建：包含从现有 NLP 语料转化、人工/众包标注、LLM 自主生成（如 ShareGPT）以及对话流重构四种主流工作流。RL/RLHF 强化学习：采用 GRPO 算法进行在线/离线难度感知过滤，并利用 AI 反馈（RLAIF）替代或补充人类评估，通过 Constitutional AI 等原则引导模型对齐。

结果本论文是Survey Paper，没有定性结果。定量结果见结论(Conclusions)。

结论研究证明，从模型中心转向数据中心是提升 LLM 性能的必由之路，强大的数据流水线直接决定了模型的可靠性。● 核心规律：战略性的相似度评估和代理模型验证能显著优化持续预训练的课程设计，使模型能更高效地吸收新领域知识。● 方法论价值：提出的 DataFlow 框架通过模块化和可组合性，有效解决了数据准备流程碎片化的问题，降低了技术门槛。● 未来价值与推广：未来的研究应集中在更系统化、自动化且可扩展的统一数据管理系统上。本综述通过汇总如 FineWeb (18.5T tokens)、OpenMathInstruct-2 (14M 对) 等前沿数据集及其处理配方，为负责任的 AI 开发和大规模高质量语料库管理提供了可推广的行业标准参考。

Abstract: Large language models (LLMs) have demonstrated remarkable generalization capabilities across diverse domains, largely attributed to the availability of massive amounts of high-quality training data. Recently, the development paradigm of LLMs has been shifting from a model-centric to a data-centric perspective. In this paper, we provide a comprehensive survey of data preparation algorithms and workflows for LLMs, categorized into three stages: pre-training, continual pre-training, and post-training. We further summarize widely used datasets along with their associated data preparation method, offering a practical reference for researchers who may lack extensive experience in the field of data preparation. Finally, we outline potential directions for future work, highlighting open challenges and opportunities in advancing data preparation for LLMs.

面向大语言模型的数据准备

Data Preparation for Large Language Models