实战指南大模型

大模型数据工程：从预训练到对齐

数据清洗、SFT 构建、RLHF 标注与评估基准的全链路指南

2025.10

数据工程的战略地位

Web 语料正在接近枯竭——喂养 GPT-3/4、Llama、DeepSeek 的公开互联网文本已被反复使用。Nature Machine Intelligence 发表的"LLM 密度定律"揭示：模型能力密度取决于训练数据的质量密度，而非绝对规模。这意味着大模型竞赛的瓶颈已从"更大的模型"转向"更好的数据"。预训练改进在 2025-2026 年主要受限于高质量新鲜数据的可得性。数据工程——从采集、清洗到对齐的全流程——已成为大模型团队的核心能力。

预训练数据处理

预训练数据处理的标准 Pipeline： 1. 数据源采集：Web 爬虫（Common Crawl 基础上定向补充）、书籍/论文/代码等高质量垂直数据源 2. 去重： • URL 去重：完全相同的 URL 只保留最新版本 • 精确去重：MinHash/SimHash 去除近似重复文档 • 段落级去重：检测跨文档的重复段落（如版权声明、导航文本） 3. 质量过滤： • 语言识别与过滤（fastText 模型） • 困惑度过滤（用 KenLM 等 N-gram 模型计算，过高说明文本质量差） • 有害内容过滤（毒性分类器 + 关键词黑名单） • 格式质量（去除 HTML 残留、编码错误、乱码） 4. 数据混合：确定不同数据源（Web、书籍、代码、论文等）的最优配比。这一步通常需要小规模消融实验来确定。

SFT 指令数据

SFT（Supervised Fine-Tuning）指令数据的 10 种构建策略： 1. 人工撰写——最高质量但最高成本，适合种子数据集 2. 众包平台——批量获取多样化指令，需要严格的质量审核 3. Self-Instruct——用模型自身生成指令-回复对，再过滤低质量样本 4. Evol-Instruct——从简单指令出发，逐步进化出更复杂的变体 5. 反向翻译——从高质量回复出发，反推可能的用户指令 6. 真实日志挖掘——从用户实际使用日志中提取高价值交互（需脱敏） 7. 任务模板——定义任务类型模板，填充领域数据生成指令 8. 多语言平行——将高质量英文指令翻译为目标语言 9. 思维链增强——为现有指令添加推理过程，提升模型的 CoT 能力 10. 对抗样本——专门构造模型容易出错的边缘案例指令

采集

清洗

标注

训练

偏好对齐数据

偏好数据采集的工程实践： RLHF 数据采集流程： 1. 为同一指令生成 K 个候选回复（K 通常为 2-4） 2. 标注师根据有用性、无害性、诚实性进行排序 3. 排序结果转化为偏好对（chosen vs rejected） 4. 构建奖励模型（Reward Model）进行训练 DPO 数据采集流程： 1. 为同一指令生成 2 个候选回复 2. 标注师直接判断哪个更好（成对比较） 3. 偏好数据直接用于 DPO 训练，无需训练奖励模型质量关键点： • 标注者间一致性（Inter-Annotator Agreement）是首要指标 • 偏好标注需要详细的评估维度定义（不能只是"哪个更好"） • 安全性相关的偏好数据需要专门的红队标注

评估基准

大模型评估基准搭建指南：通用基准：MMLU（多任务知识）、HellaSwag（常识推理）、GSM8K（数学）、HumanEval（代码）构成基础评估矩阵。领域基准：根据模型应用场景构建专属评估集。关键原则是评估集必须独立于训练集，且覆盖目标场景的典型用例和边缘案例。安全评估：对齐程度的量化评估——包括有害内容拒绝率、偏见测试、越狱攻击鲁棒性。人类评估：Chatbot Arena 式的人类盲评仍然是最可靠的评估方式。建议建立内部评估团队，定期进行人工评测并跟踪迭代改进。评估陷阱： • 避免对公开基准过拟合（"刷榜"） • 定期更新评估集以防止数据泄漏 • 关注"能力-安全"的 Pareto 前沿，而非单一维度

未来方向

大模型数据工程的演进方向： 1. 合成数据的精密化——从简单的 prompt 生成进化到多轮对抗生成 + 人工筛选的复杂流程 2. 数据飞轮——模型部署后的用户交互数据反哺训练数据的闭环。需要严格的隐私保护和用户授权机制。 3. 领域数据的稀缺溢价——通用 Web 数据的边际价值递减，而医疗、法律、金融等领域的高质量数据将持续供不应求。 4. 数据版权基础设施——类似软件 SBOM（Software Bill of Materials）的"Data Bill of Materials"将成为交付标配。 5. 持续预训练——不再一次性训练，而是持续吸收新鲜数据。这要求数据管线具备实时、增量、版本化的能力。

实战指南大模型2025.10

需要定制化行业报告？

浏览更多白皮书

大模型数据工程：从预训练到对齐

数据工程的战略地位

预训练数据处理

SFT 指令数据

偏好对齐数据

评估基准

未来方向

相关推荐

企业级网页数据采集实战指南

2026 AI 训练数据趋势白皮书

高质量数据标注方法论与工程实践

需要定制化行业报告？