第六章：大模型的数据

“哥，咱上回聊完混合大模型的架构（Moe），这回换个新话题：大模型吃的到底是什么饭？”

“小妹，这可问到点子上了。模型是胃，数据是粮。没好粮，再先进的灶也炒不出好菜。”

01、为什么一切要从“数据”开始？

“哥，模型那么聪明，是不是先天的？”

“哪有先天的天才？大模型的‘聪明’，是从海量原始文本里薅出来的。”

任何机器学习方法，第一步都在数据。

对大语言模型（LLM）来说，所谓“训练数据”基本就是原始文本：网页、书籍、百科、论坛帖子、新闻、论文、问答、代码……语域越广，覆盖的人群、语言、风格、主题越多，模型越有机会学会“语言+世界知识”的通用能力。

网络是最自然的“矿山”，但并非唯一来源（企业内私有数据也常常更大更肥）。

Common Crawl 这类公益爬网的“公共粮仓”，再加上维基、书籍语料、新闻站、论坛投稿，构成了许多模型的底座。重点不是“有多少”，而是“怎么挑、怎么洗、怎么搭配”。

02、数据从哪来：公共粮仓与私房菜

2.1 网络公共粮仓：Common Crawl 等

Common Crawl 是非营利组织，定期对网络做快照，免费开放，体量巨大，成为 T5、GPT-3、Gopher 等模型的标准原料之一。但“多”并不等于“好”，原始抓取里混着模板页、重复页、广告页、乱码页，清洗与筛选就是第一道大工序。

2.2 私有数据：“深水区”的巨鲸

大量公司自有数据远超公共网络：交易日志、客服对话、产品说明、内部知识库、报表与工单。这些通常无法公开，但胜在质量可控、领域聚焦——对企业级大模型微调尤其重要。

“哥，那公开网和企业内网，哪个好？” “做通用能力靠‘广’，做业务落地靠‘准’。理想是广谱打底，领域精炼。”

03、两门“启蒙菜”：WebText 与 OpenWebText

GPT-2 时代，OpenAI 提出 WebText：不是生吞 Common Crawl，而是“先从 Reddit 的外链里挑”，再过滤低质、去重、去维基（为了评测公平），凑成一锅相对干净、相对高质量的 40GB 文本。

后来学界民间复刻了个 OpenWebText：同样从 Reddit 提取 URL，用 fastText 过滤非英语，做近重复去除，得到约 38GB。

这俩数据集后来也被研究毒性与来源偏差：比如有比例不小的内容来自被封或被隔离的子社区；新闻可靠性与毒性呈负相关。结论不意外：网络世界并不均匀，数据里有光也有阴影。

“小妹，你说模型会不会学坏？”

“会呀，跟谁学像谁。你天天刷什么，心里就装什么。” 这孩子，悟性是真高。

04、“大扫除”派系：C4 语料与清洗之道

T5 的 C4（Colossal Clean Crawled Corpus），从 Common Crawl 出发，走了一条“重清洗”的路线：过滤“坏词”、排代码片段、做语言检测、去重，最后留下 ~806GB 文本。后来的分析发现：

数据很大一部分来自 patents.google.com；
页面年代分布偏近十年；
美国托管页面占到一半以上；
自动翻译/OCR 可能引入系统性错误。这说明“干净≠均衡”。清洗会提质，也会“偏食”。尤其对方言、少数群体表达、性取向相关非冒犯表达——过滤阈值一调高，可能就把“多样性”也洗掉了。

05、评测里的“穿越”：基准数据污染

机器学习讲究“训练/测试”分离。但 LLM 的训练与评测都来自互联网——你很难保证评测集没在训练语料里出现过。以摘要、问答类基准为例：

输入+输出双污染：评测里的输入和标准答案都被模型“见过”。
输入单污染：输入句子在训练里出现过，虽没配套答案，也会让评测偏乐观。这不是谁“作弊”，而是互联网数据“天生就黏”。解决之道包括：更严格的去重策略、时间切分（只用某日期之前的数据训练）、公开可复现的数据清洗与重建流程。

06、GPT-3 的“配方”：以广搭框、以筛定味

GPT-3 采用了“Common Crawl 为主，精挑细拣再配上书籍/百科”的策略：

训练出一个二分类器来判别“像不像 WebText”，借此在 Crawl 中挑“更像高质量网页”的文档；
模糊去重（如 13-gram 重叠阈值）减少重复背诵；
加上 WebText2、Books1/2、Wikipedia 等高质量源；
对 Common Crawl 做降采样——占比大，但贡献不“一刀切”。这个配方的精神：广谱+精选。广谱保证覆盖，精选保证纯度。

07、“另一条路”：The Pile 的高质拼盘

EleutherAI 推出的 The Pile，把 22 个高质量数据源拼成约 825GB 的英文文本，偏学术、专业、技术文档。

研究发现：即便用较小参数量，在某些任务上，Pile 系的数据能补齐“大而全抓取”未覆盖的知识带。它也照样有偏差，需要记录与审视，但它强调了一个方向：不止是从“多”里淘，也要从“好”里取。

“哥，是不是以后都用‘精选套餐’？”

“也别走极端。拼盘讲究荤素搭配、冷热均衡。不同模型目标，不同搭配。”

08、数据文档：给数据也配“说明书”

电子元件有数据手册，食品有营养成分表，数据集也该有“说明书”。

谁建的、为啥建、花了谁的钱、怎么采的、谁标的、是否过伦理审查、清洗/去重/标注细节、适用与不适用的任务、分发/更新/维护策略、语言/说话人/标注者分布……这些都该写清楚。

这类规范的代表包括：Datasheets for Datasets、Data Statements，以及各大基础模型报告里的数据章节。它们的意义有二：

让数据集创建者反思选择及潜在伤害；
让使用者知道“何时用、何时不用”。
对 LLM 而言，复杂的来源、长链条的清洗，让“文档化”尤为重要：你不写清楚，偏差和风险就会“隐身”。

09、数据生态与治理：从“一袋数据”到“一张网”

在工程实践里，数据不是一次性物料，而是持续生产—清洗—使用—反馈—治理的循环系统。

数据治理：定义谁能创建/访问/修改数据；审计质量与合规；制定留存与删除策略；明确责任人与流程。
社区型治理：如 BigScience 的多语种数据集，探索在开放协作里做来源筛选、伦理审查、许可管理、版本化追踪。与其“漫灌式抓取”，不如“负责任地策展”。
数据尊严：数据是劳动，不仅是财产。很多数据具有群体属性（邮件、基因、群聊），价值在集合层面显现。由此延伸出数据联盟（代表数据创作者集体谈判）、Data Shapley（在机器学习情境下给每个样本定“贡献值”）等思路。它们尚在探索，但都指向一个未来：让价值回到生产者。

10、偏见、毒性与“被看见”的权利

大规模网络数据并不自动“代表世界”。一些研究指出：

互联网文本更能代表发达国家的年轻用户；
Reddit/维基等平台的性别/年龄/地域分布不均；
过滤“脏词”可能顺带排除了少数群体的自我表达（如方言词、群体内化称谓）；
骚扰与仇恨言论让部分人群“被迫沉默”。当这些分布差异进入模型，偏见就被“封存”进参数里。解决不是一句“再多抓点”这么简单，而是在采集—清洗—记录—评估的每一环里，留出“被看见”的空间。

11、去重的艺术：别让模型“背书”

重复文本会让模型过拟合背诵、膨胀参数记忆、评测虚高。常见做法：

n-gram 窗口去重：如 13-gram 重叠阈值；
语义级去重：用向量相似度找近重复；
跨源对齐：避免同一新闻稿在不同转载站上重复计入；
时间窗切分：减少“同题材新稿”的高度雷同。去重不是“越严越好”，要在“保留多样表达”和“消除机械复写”间找平衡。

12、评测再升级：与其“纯抽象”，不如“接地面”

评测要避免污染，也要更贴近真实使用：

时间切分评测：只用训练之后发生的事实；
对抗集与长尾集：故意挑稀有、反直觉、跨域问题；
价值对齐评测：把毒性、歧视、事实冲突、隐私泄露纳入指标；
任务链评测：不仅看答案，还看步骤解释、引用出处、遵循指令的稳定性。评测不是终点，而是“数据—模型—使用”闭环里的“体检单”。

13、行业落地：通用打底 + 领域精炼 + 安全护栏

企业落地的大模型，通常走“三明治”路线：

通用底座：用公共大语料学语言与常识；
领域微调/后训练：喂业务文档、客服日志、流程规范、问答对；
安全与合规：指令对齐、拒答策略、内容过滤、PII 脱敏、引用与可追溯。数据侧的要点：

采集合规：来源许可、用途限制、用户告知与撤回机制；
标注机制：人群多样、双盲互审、冲突解析；
版本化与可追溯：数据—模型—评测三线对齐，可复现实验；
红队与灰度：上线前后持续攻防与小流量验证。

14、给数据立“家规”：十条实操清单

写数据说明书：来源、许可、清洗、偏见、限制场景，一条不少。
做来源多元化：别把通用能力押宝在单一平台。
分层清洗：模板/广告先砍，语言/重复再筛，最后做质量打分。
去重与去污分开做：先控重复，再控毒性，不要一刀切。
保护少数表达：对方言、群体术语单列规则，避免“误伤”。
时间切分：训练/评测按时间隔离，保真模型的“见识边界”。
评测多维度：准确性、鲁棒性、安全性、可追溯性一起看。
建立数据审议会：跨法务、伦理、产品、工程定期开评。
反馈闭环：上线后把用户纠错、拒答触发、越权尝试回流到数据。
记录被删与被拒：不止记录“用什么”，也记录“没用什么”和原因。

15、关于“谁的价值该被看见”

“哥，数据价值到底属于谁？”

数据不是凭空掉下来的黄金，而是千千万万人的文字、声音、图像、知识与情感的汇流。把它视为劳动，就会更尊重来源、许可与回报；把它视为生态，就会更重视治理、流动与更新。大模型的时代，让我们更有能力，但也更有义务：在追求能力的同时，守住尊严与公平。

16、结语：好粮，才能出好菜

“小妹，记住一句话：数据是模型的骨与血。”

“那咱买菜讲究：新鲜、干净、营养均衡，还得看配菜手艺。”

附：关键词小抄（便于回看）

Common Crawl：公共网页抓取底座，量大，需重清洗。
WebText / OpenWebText：源自 Reddit 外链筛选的高质量网页集，用于 GPT-2（及复刻）。
C4：T5 使用的“重清洗”爬网语料，干净但可能“偏食”。
数据污染：评测集出现在训练集里，导致乐观偏差。
GPT-3 配方：广谱抓取 + 分类器精选 + 去重 + 多源拼配。
The Pile：22 源高质量拼盘，强调“好”的补位作用。
数据文档/数据治理/数据尊严：把数据当“产品”和“劳动”，可追溯、可协商、可更新。