白皮书/实战指南
实战指南大模型

大模型数据工程:从预训练到对齐

数据清洗、SFT 构建、RLHF 标注与评估基准的全链路指南

2025.10
返回列表

数据工程的战略地位

Web 语料正在接近枯竭——喂养 GPT-3/4、Llama、DeepSeek 的公开互联网文本已被反复使用。Nature Machine Intelligence 发表的"LLM 密度定律"揭示:模型能力密度取决于训练数据的质量密度,而非绝对规模。 这意味着大模型竞赛的瓶颈已从"更大的模型"转向"更好的数据"。预训练改进在 2025-2026 年主要受限于高质量新鲜数据的可得性。数据工程——从采集、清洗到对齐的全流程——已成为大模型团队的核心能力。

预训练数据处理

预训练数据处理的标准 Pipeline: 1. 数据源采集:Web 爬虫(Common Crawl 基础上定向补充)、书籍/论文/代码等高质量垂直数据源 2. 去重: • URL 去重:完全相同的 URL 只保留最新版本 • 精确去重:MinHash/SimHash 去除近似重复文档 • 段落级去重:检测跨文档的重复段落(如版权声明、导航文本) 3. 质量过滤: • 语言识别与过滤(fastText 模型) • 困惑度过滤(用 KenLM 等 N-gram 模型计算,过高说明文本质量差) • 有害内容过滤(毒性分类器 + 关键词黑名单) • 格式质量(去除 HTML 残留、编码错误、乱码) 4. 数据混合:确定不同数据源(Web、书籍、代码、论文等)的最优配比。这一步通常需要小规模消融实验来确定。

SFT 指令数据

SFT(Supervised Fine-Tuning)指令数据的 10 种构建策略: 1. 人工撰写——最高质量但最高成本,适合种子数据集 2. 众包平台——批量获取多样化指令,需要严格的质量审核 3. Self-Instruct——用模型自身生成指令-回复对,再过滤低质量样本 4. Evol-Instruct——从简单指令出发,逐步进化出更复杂的变体 5. 反向翻译——从高质量回复出发,反推可能的用户指令 6. 真实日志挖掘——从用户实际使用日志中提取高价值交互(需脱敏) 7. 任务模板——定义任务类型模板,填充领域数据生成指令 8. 多语言平行——将高质量英文指令翻译为目标语言 9. 思维链增强——为现有指令添加推理过程,提升模型的 CoT 能力 10. 对抗样本——专门构造模型容易出错的边缘案例指令
采集
清洗
标注
训练

偏好对齐数据

偏好数据采集的工程实践: RLHF 数据采集流程: 1. 为同一指令生成 K 个候选回复(K 通常为 2-4) 2. 标注师根据有用性、无害性、诚实性进行排序 3. 排序结果转化为偏好对(chosen vs rejected) 4. 构建奖励模型(Reward Model)进行训练 DPO 数据采集流程: 1. 为同一指令生成 2 个候选回复 2. 标注师直接判断哪个更好(成对比较) 3. 偏好数据直接用于 DPO 训练,无需训练奖励模型 质量关键点: • 标注者间一致性(Inter-Annotator Agreement)是首要指标 • 偏好标注需要详细的评估维度定义(不能只是"哪个更好") • 安全性相关的偏好数据需要专门的红队标注

评估基准

大模型评估基准搭建指南: 通用基准:MMLU(多任务知识)、HellaSwag(常识推理)、GSM8K(数学)、HumanEval(代码)构成基础评估矩阵。 领域基准:根据模型应用场景构建专属评估集。关键原则是评估集必须独立于训练集,且覆盖目标场景的典型用例和边缘案例。 安全评估:对齐程度的量化评估——包括有害内容拒绝率、偏见测试、越狱攻击鲁棒性。 人类评估:Chatbot Arena 式的人类盲评仍然是最可靠的评估方式。建议建立内部评估团队,定期进行人工评测并跟踪迭代改进。 评估陷阱: • 避免对公开基准过拟合("刷榜") • 定期更新评估集以防止数据泄漏 • 关注"能力-安全"的 Pareto 前沿,而非单一维度

未来方向

大模型数据工程的演进方向: 1. 合成数据的精密化——从简单的 prompt 生成进化到多轮对抗生成 + 人工筛选的复杂流程 2. 数据飞轮——模型部署后的用户交互数据反哺训练数据的闭环。需要严格的隐私保护和用户授权机制。 3. 领域数据的稀缺溢价——通用 Web 数据的边际价值递减,而医疗、法律、金融等领域的高质量数据将持续供不应求。 4. 数据版权基础设施——类似软件 SBOM(Software Bill of Materials)的"Data Bill of Materials"将成为交付标配。 5. 持续预训练——不再一次性训练,而是持续吸收新鲜数据。这要求数据管线具备实时、增量、版本化的能力。
实战指南大模型2025.10

需要定制化行业报告?