数据工程的战略地位
Web 语料正在接近枯竭——喂养 GPT-3/4、Llama、DeepSeek 的公开互联网文本已被反复使用。Nature Machine Intelligence 发表的"LLM 密度定律"揭示:模型能力密度取决于训练数据的质量密度,而非绝对规模。
这意味着大模型竞赛的瓶颈已从"更大的模型"转向"更好的数据"。预训练改进在 2025-2026 年主要受限于高质量新鲜数据的可得性。数据工程——从采集、清洗到对齐的全流程——已成为大模型团队的核心能力。
预训练数据处理
预训练数据处理的标准 Pipeline:
1. 数据源采集:Web 爬虫(Common Crawl 基础上定向补充)、书籍/论文/代码等高质量垂直数据源
2. 去重:
• URL 去重:完全相同的 URL 只保留最新版本
• 精确去重:MinHash/SimHash 去除近似重复文档
• 段落级去重:检测跨文档的重复段落(如版权声明、导航文本)
3. 质量过滤:
• 语言识别与过滤(fastText 模型)
• 困惑度过滤(用 KenLM 等 N-gram 模型计算,过高说明文本质量差)
• 有害内容过滤(毒性分类器 + 关键词黑名单)
• 格式质量(去除 HTML 残留、编码错误、乱码)
4. 数据混合:确定不同数据源(Web、书籍、代码、论文等)的最优配比。这一步通常需要小规模消融实验来确定。
SFT 指令数据
SFT(Supervised Fine-Tuning)指令数据的 10 种构建策略:
1. 人工撰写——最高质量但最高成本,适合种子数据集
2. 众包平台——批量获取多样化指令,需要严格的质量审核
3. Self-Instruct——用模型自身生成指令-回复对,再过滤低质量样本
4. Evol-Instruct——从简单指令出发,逐步进化出更复杂的变体
5. 反向翻译——从高质量回复出发,反推可能的用户指令
6. 真实日志挖掘——从用户实际使用日志中提取高价值交互(需脱敏)
7. 任务模板——定义任务类型模板,填充领域数据生成指令
8. 多语言平行——将高质量英文指令翻译为目标语言
9. 思维链增强——为现有指令添加推理过程,提升模型的 CoT 能力
10. 对抗样本——专门构造模型容易出错的边缘案例指令
采集
清洗
标注
训练
偏好对齐数据
偏好数据采集的工程实践:
RLHF 数据采集流程:
1. 为同一指令生成 K 个候选回复(K 通常为 2-4)
2. 标注师根据有用性、无害性、诚实性进行排序
3. 排序结果转化为偏好对(chosen vs rejected)
4. 构建奖励模型(Reward Model)进行训练
DPO 数据采集流程:
1. 为同一指令生成 2 个候选回复
2. 标注师直接判断哪个更好(成对比较)
3. 偏好数据直接用于 DPO 训练,无需训练奖励模型
质量关键点:
• 标注者间一致性(Inter-Annotator Agreement)是首要指标
• 偏好标注需要详细的评估维度定义(不能只是"哪个更好")
• 安全性相关的偏好数据需要专门的红队标注
评估基准
大模型评估基准搭建指南:
通用基准:MMLU(多任务知识)、HellaSwag(常识推理)、GSM8K(数学)、HumanEval(代码)构成基础评估矩阵。
领域基准:根据模型应用场景构建专属评估集。关键原则是评估集必须独立于训练集,且覆盖目标场景的典型用例和边缘案例。
安全评估:对齐程度的量化评估——包括有害内容拒绝率、偏见测试、越狱攻击鲁棒性。
人类评估:Chatbot Arena 式的人类盲评仍然是最可靠的评估方式。建议建立内部评估团队,定期进行人工评测并跟踪迭代改进。
评估陷阱:
• 避免对公开基准过拟合("刷榜")
• 定期更新评估集以防止数据泄漏
• 关注"能力-安全"的 Pareto 前沿,而非单一维度
未来方向
大模型数据工程的演进方向:
1. 合成数据的精密化——从简单的 prompt 生成进化到多轮对抗生成 + 人工筛选的复杂流程
2. 数据飞轮——模型部署后的用户交互数据反哺训练数据的闭环。需要严格的隐私保护和用户授权机制。
3. 领域数据的稀缺溢价——通用 Web 数据的边际价值递减,而医疗、法律、金融等领域的高质量数据将持续供不应求。
4. 数据版权基础设施——类似软件 SBOM(Software Bill of Materials)的"Data Bill of Materials"将成为交付标配。
5. 持续预训练——不再一次性训练,而是持续吸收新鲜数据。这要求数据管线具备实时、增量、版本化的能力。
实战指南大模型2025.10