第六章:大模型的数据
“哥,咱上回聊完混合大模型的架构(Moe),这回换个新话题:大模型吃的到底是什么饭?”
“小妹,这可问到点子上了。模型是胃,数据是粮。没好粮,再先进的灶也炒不出好菜。”
01、为什么一切要从“数据”开始?
“哥,模型那么聪明,是不是先天的?”
“哪有先天的天才?大模型的‘聪明’,是从海量原始文本里薅出来的。”
任何机器学习方法,第一步都在数据。
对大语言模型(LLM)来说,所谓“训练数据”基本就是原始文本:网页、书籍、百科、论坛帖子、新闻、论文、问答、代码……语域越广,覆盖的人群、语言、风格、主题越多,模型越有机会学会“语言+世界知识”的通用能力。
网络是最自然的“矿山”,但并非唯一来源(企业内私有数据也常常更大更肥)。
Common Crawl 这类公益爬网的“公共粮仓”,再加上维基、书籍语料、新闻站、论坛投稿,构成了许多模型的底座。重点不是“有多少”,而是“怎么挑、怎么洗、怎么搭配”。
02、数据从哪来:公共粮仓与私房菜
2.1 网络公共粮仓:Common Crawl 等
Common Crawl 是非营利组织,定期对网络做快照,免费开放,体量巨大,成为 T5、GPT-3、Gopher 等模型的标准原料之一。但“多”并不等于“好”,原始抓取里混着模板页、重复页、广告页、乱码页,清洗与筛选就是第一道大工序。
2.2 私有数据:“深水区”的巨鲸
大量公司自有数据远超公共网络:交易日志、客服对话、产品说明、内部知识库、报表与工单。这些通常无法公开,但胜在质量可控、领域聚焦——对企业级大模型微调尤其重要。
“哥,那公开网和企业内网,哪个好?” “做通用能力靠‘广’,做业务落地靠‘准’。理想是广谱打底,领域精炼。”
03、两门“启蒙菜”:WebText 与 OpenWebText
GPT-2 时代,OpenAI 提出 WebText:不是生吞 Common Crawl,而是“先从 Reddit 的外链里挑”,再过滤低质、去重、去维基(为了评测公平),凑成一锅相对干净、相对高质量的 40GB 文本。
后来学界民间复刻了个 OpenWebText:同样从 Reddit 提取 URL,用 fastText 过滤非英语,做近重复去除,得到约 38GB。
这俩数据集后来也被研究毒性与来源偏差:比如有比例不小的内容来自被封或被隔离的子社区;新闻可靠性与毒性呈负相关。结论不意外:网络世界并不均匀,数据里有光也有阴影。
“小妹,你说模型会不会学坏?”
“会呀,跟谁学像谁。你天天刷什么,心里就装什么。” 这孩子,悟性是真高。
04、“大扫除”派系:C4 语料与清洗之道
T5 的 C4(Colossal Clean Crawled Corpus),从 Common Crawl 出发,走了一条“重清洗”的路线:过滤“坏词”、排代码片段、做语言检测、去重,最后留下 ~806GB 文本。后来的分析发现:
- 数据很大一部分来自 patents.google.com;
- 页面年代分布偏近十年;
- 美国托管页面占到一半以上;
- 自动翻译/OCR 可能引入系统性错误。 这说明“干净≠均衡”。清洗会提质,也会“偏食”。尤其对方言、少数群体表达、性取向相关非冒犯表达——过滤阈值一调高,可能就把“多样性”也洗掉了。
05、评测里的“穿越”:基准数据污染
机器学习讲究“训练/测试”分离。但 LLM 的训练与评测都来自互联网——你很难保证评测集没在训练语料里出现过。以摘要、问答类基准为例:
- 输入+输出双污染:评测里的输入和标准答案都被模型“见过”。
- 输入单污染:输入句子在训练里出现过,虽没配套答案,也会让评测偏乐观。 这不是谁“作弊”,而是互联网数据“天生就黏”。解决之道包括:更严格的去重策略、时间切分(只用某日期之前的数据训练)、公开可复现的数据清洗与重建流程。
06、GPT-3 的“配方”:以广搭框、以筛定味
GPT-3 采用了“Common Crawl 为主,精挑细拣再配上书籍/百科”的策略:
- 训练出一个二分类器来判别“像不像 WebText”,借此在 Crawl 中挑“更像高质量网页”的文档;
- 模糊去重(如 13-gram 重叠阈值)减少重复背诵;
- 加上 WebText2、Books1/2、Wikipedia 等高质量源;
- 对 Common Crawl 做降采样——占比大,但贡献不“一刀切”。 这个配方的精神:广谱+精选。广谱保证覆盖,精选保证纯度。
07、“另一条路”:The Pile 的高质拼盘
EleutherAI 推出的 The Pile,把 22 个高质量数据源拼成约 825GB 的英文文本,偏学术、专业、技术文档。
研究发现:即便用较小参数量,在某些任务上,Pile 系的数据能补齐“大而全抓取”未覆盖的知识带。它也照样有偏差,需要记录与审视,但它强调了一个方向:不止是从“多”里淘,也要从“好”里取。
“哥,是不是以后都用‘精选套餐’?”
“也别走极端。拼盘讲究荤素搭配、冷热均衡。不同模型目标,不同搭配。”
08、数据文档:给数据也配“说明书”
电子元件有数据手册,食品有营养成分表,数据集也该有“说明书”。
谁建的、为啥建、花了谁的钱、怎么采的、谁标的、是否过伦理审查、清洗/去重/标注细节、适用与不适用的任务、分发/更新/维护策略、语言/说话人/标注者分布……这些都该写清楚。
这类规范的代表包括:Datasheets for Datasets、Data Statements,以及各大基础模型报告里的数据章节。它们的意义有二:
让数据集创建者反思选择及潜在伤害;
让使用者知道“何时用、何时不用”。
对 LLM 而言,复杂的来源、长链条的清洗,让“文档化”尤为重要:你不写清楚,偏差和风险就会“隐身”。
09、数据生态与治理:从“一袋数据”到“一张网”
在工程实践里,数据不是一次性物料,而是持续生产—清洗—使用—反馈—治理的循环系统。
- 数据治理:定义谁能创建/访问/修改数据;审计质量与合规;制定留存与删除策略;明确责任人与流程。
- 社区型治理:如 BigScience 的多语种数据集,探索在开放协作里做来源筛选、伦理审查、许可管理、版本化追踪。与其“漫灌式抓取”,不如“负责任地策展”。
- 数据尊严:数据是劳动,不仅是财产。很多数据具有群体属性(邮件、基因、群聊),价值在集合层面显现。由此延伸出数据联盟(代表数据创作者集体谈判)、Data Shapley(在机器学习情境下给每个样本定“贡献值”)等思路。它们尚在探索,但都指向一个未来:让价值回到生产者。
10、偏见、毒性与“被看见”的权利
大规模网络数据并不自动“代表世界”。一些研究指出:
- 互联网文本更能代表发达国家的年轻用户;
- Reddit/维基等平台的性别/年龄/地域分布不均;
- 过滤“脏词”可能顺带排除了少数群体的自我表达(如方言词、群体内化称谓);
- 骚扰与仇恨言论让部分人群“被迫沉默”。 当这些分布差异进入模型,偏见就被“封存”进参数里。解决不是一句“再多抓点”这么简单,而是在采集—清洗—记录—评估的每一环里,留出“被看见”的空间。
11、去重的艺术:别让模型“背书”
重复文本会让模型过拟合背诵、膨胀参数记忆、评测虚高。常见做法:
- n-gram 窗口去重:如 13-gram 重叠阈值;
- 语义级去重:用向量相似度找近重复;
- 跨源对齐:避免同一新闻稿在不同转载站上重复计入;
- 时间窗切分:减少“同题材新稿”的高度雷同。 去重不是“越严越好”,要在“保留多样表达”和“消除机械复写”间找平衡。
12、评测再升级:与其“纯抽象”,不如“接地面”
评测要避免污染,也要更贴近真实使用:
- 时间切分评测:只用训练之后发生的事实;
- 对抗集与长尾集:故意挑稀有、反直觉、跨域问题;
- 价值对齐评测:把毒性、歧视、事实冲突、隐私泄露纳入指标;
- 任务链评测:不仅看答案,还看步骤解释、引用出处、遵循指令的稳定性。 评测不是终点,而是“数据—模型—使用”闭环里的“体检单”。
13、行业落地:通用打底 + 领域精炼 + 安全护栏
企业落地的大模型,通常走“三明治”路线:
- 通用底座:用公共大语料学语言与常识;
- 领域微调/后训练:喂业务文档、客服日志、流程规范、问答对;
- 安全与合规:指令对齐、拒答策略、内容过滤、PII 脱敏、引用与可追溯。 数据侧的要点:
- 采集合规:来源许可、用途限制、用户告知与撤回机制;
- 标注机制:人群多样、双盲互审、冲突解析;
- 版本化与可追溯:数据—模型—评测三线对齐,可复现实验;
- 红队与灰度:上线前后持续攻防与小流量验证。
14、给数据立“家规”:十条实操清单
- 写数据说明书:来源、许可、清洗、偏见、限制场景,一条不少。
- 做来源多元化:别把通用能力押宝在单一平台。
- 分层清洗:模板/广告先砍,语言/重复再筛,最后做质量打分。
- 去重与去污分开做:先控重复,再控毒性,不要一刀切。
- 保护少数表达:对方言、群体术语单列规则,避免“误伤”。
- 时间切分:训练/评测按时间隔离,保真模型的“见识边界”。
- 评测多维度:准确性、鲁棒性、安全性、可追溯性一起看。
- 建立数据审议会:跨法务、伦理、产品、工程定期开评。
- 反馈闭环:上线后把用户纠错、拒答触发、越权尝试回流到数据。
- 记录被删与被拒:不止记录“用什么”,也记录“没用什么”和原因。
15、关于“谁的价值该被看见”
“哥,数据价值到底属于谁?”
数据不是凭空掉下来的黄金,而是千千万万人的文字、声音、图像、知识与情感的汇流。把它视为劳动,就会更尊重来源、许可与回报;把它视为生态,就会更重视治理、流动与更新。大模型的时代,让我们更有能力,但也更有义务:在追求能力的同时,守住尊严与公平。
16、结语:好粮,才能出好菜
“小妹,记住一句话:数据是模型的骨与血。”
“那咱买菜讲究:新鲜、干净、营养均衡,还得看配菜手艺。”
附:关键词小抄(便于回看)
- Common Crawl:公共网页抓取底座,量大,需重清洗。
- WebText / OpenWebText:源自 Reddit 外链筛选的高质量网页集,用于 GPT-2(及复刻)。
- C4:T5 使用的“重清洗”爬网语料,干净但可能“偏食”。
- 数据污染:评测集出现在训练集里,导致乐观偏差。
- GPT-3 配方:广谱抓取 + 分类器精选 + 去重 + 多源拼配。
- The Pile:22 源高质量拼盘,强调“好”的补位作用。
- 数据文档/数据治理/数据尊严:把数据当“产品”和“劳动”,可追溯、可协商、可更新。