module-data

第六章:大模型的数据

“哥,咱上回聊完混合大模型的架构(Moe),这回换个新话题:大模型吃的到底是什么饭?”

“小妹,这可问到点子上了。模型是胃,数据是粮。没好粮,再先进的灶也炒不出好菜。”

01、为什么一切要从“数据”开始?

“哥,模型那么聪明,是不是先天的?”

“哪有先天的天才?大模型的‘聪明’,是从海量原始文本里薅出来的。”

任何机器学习方法,第一步都在数据。

对大语言模型(LLM)来说,所谓“训练数据”基本就是原始文本:网页、书籍、百科、论坛帖子、新闻、论文、问答、代码……语域越广,覆盖的人群、语言、风格、主题越多,模型越有机会学会“语言+世界知识”的通用能力。

网络是最自然的“矿山”,但并非唯一来源(企业内私有数据也常常更大更肥)。

Common Crawl 这类公益爬网的“公共粮仓”,再加上维基、书籍语料、新闻站、论坛投稿,构成了许多模型的底座。重点不是“有多少”,而是“怎么挑、怎么洗、怎么搭配”。

02、数据从哪来:公共粮仓与私房菜

2.1 网络公共粮仓:Common Crawl 等

Common Crawl 是非营利组织,定期对网络做快照,免费开放,体量巨大,成为 T5、GPT-3、Gopher 等模型的标准原料之一。但“多”并不等于“好”,原始抓取里混着模板页、重复页、广告页、乱码页,清洗与筛选就是第一道大工序。

2.2 私有数据:“深水区”的巨鲸

大量公司自有数据远超公共网络:交易日志、客服对话、产品说明、内部知识库、报表与工单。这些通常无法公开,但胜在质量可控、领域聚焦——对企业级大模型微调尤其重要。

“哥,那公开网和企业内网,哪个好?” “做通用能力靠‘广’,做业务落地靠‘准’。理想是广谱打底,领域精炼。”

03、两门“启蒙菜”:WebText 与 OpenWebText

GPT-2 时代,OpenAI 提出 WebText:不是生吞 Common Crawl,而是“先从 Reddit 的外链里挑”,再过滤低质、去重、去维基(为了评测公平),凑成一锅相对干净、相对高质量的 40GB 文本。

后来学界民间复刻了个 OpenWebText:同样从 Reddit 提取 URL,用 fastText 过滤非英语,做近重复去除,得到约 38GB。

这俩数据集后来也被研究毒性与来源偏差:比如有比例不小的内容来自被封或被隔离的子社区;新闻可靠性与毒性呈负相关。结论不意外:网络世界并不均匀,数据里有光也有阴影。

“小妹,你说模型会不会学坏?”

“会呀,跟谁学像谁。你天天刷什么,心里就装什么。” 这孩子,悟性是真高。

04、“大扫除”派系:C4 语料与清洗之道

T5 的 C4(Colossal Clean Crawled Corpus),从 Common Crawl 出发,走了一条“重清洗”的路线:过滤“坏词”、排代码片段、做语言检测、去重,最后留下 ~806GB 文本。后来的分析发现:

  • 数据很大一部分来自 patents.google.com;
  • 页面年代分布偏近十年;
  • 美国托管页面占到一半以上;
  • 自动翻译/OCR 可能引入系统性错误。 这说明“干净≠均衡”。清洗会提质,也会“偏食”。尤其对方言、少数群体表达、性取向相关非冒犯表达——过滤阈值一调高,可能就把“多样性”也洗掉了。

05、评测里的“穿越”:基准数据污染

机器学习讲究“训练/测试”分离。但 LLM 的训练与评测都来自互联网——你很难保证评测集没在训练语料里出现过。以摘要、问答类基准为例:

  • 输入+输出双污染:评测里的输入和标准答案都被模型“见过”。
  • 输入单污染:输入句子在训练里出现过,虽没配套答案,也会让评测偏乐观。 这不是谁“作弊”,而是互联网数据“天生就黏”。解决之道包括:更严格的去重策略、时间切分(只用某日期之前的数据训练)、公开可复现的数据清洗与重建流程。

06、GPT-3 的“配方”:以广搭框、以筛定味

GPT-3 采用了“Common Crawl 为主,精挑细拣再配上书籍/百科”的策略:

  • 训练出一个二分类器来判别“像不像 WebText”,借此在 Crawl 中挑“更像高质量网页”的文档;
  • 模糊去重(如 13-gram 重叠阈值)减少重复背诵;
  • 加上 WebText2、Books1/2、Wikipedia 等高质量源;
  • 对 Common Crawl 做降采样——占比大,但贡献不“一刀切”。 这个配方的精神:广谱+精选。广谱保证覆盖,精选保证纯度。

07、“另一条路”:The Pile 的高质拼盘

EleutherAI 推出的 The Pile,把 22 个高质量数据源拼成约 825GB 的英文文本,偏学术、专业、技术文档。

研究发现:即便用较小参数量,在某些任务上,Pile 系的数据能补齐“大而全抓取”未覆盖的知识带。它也照样有偏差,需要记录与审视,但它强调了一个方向:不止是从“多”里淘,也要从“好”里取

“哥,是不是以后都用‘精选套餐’?”

“也别走极端。拼盘讲究荤素搭配、冷热均衡。不同模型目标,不同搭配。”

08、数据文档:给数据也配“说明书”

电子元件有数据手册,食品有营养成分表,数据集也该有“说明书”。

谁建的、为啥建、花了谁的钱、怎么采的、谁标的、是否过伦理审查、清洗/去重/标注细节、适用与不适用的任务、分发/更新/维护策略、语言/说话人/标注者分布……这些都该写清楚。

这类规范的代表包括:Datasheets for DatasetsData Statements,以及各大基础模型报告里的数据章节。它们的意义有二:

  1. 让数据集创建者反思选择及潜在伤害;

  2. 让使用者知道“何时用、何时不用”。

    对 LLM 而言,复杂的来源、长链条的清洗,让“文档化”尤为重要:你不写清楚,偏差和风险就会“隐身”。

09、数据生态与治理:从“一袋数据”到“一张网”

在工程实践里,数据不是一次性物料,而是持续生产—清洗—使用—反馈—治理的循环系统。

  • 数据治理:定义谁能创建/访问/修改数据;审计质量与合规;制定留存与删除策略;明确责任人与流程。
  • 社区型治理:如 BigScience 的多语种数据集,探索在开放协作里做来源筛选、伦理审查、许可管理、版本化追踪。与其“漫灌式抓取”,不如“负责任地策展”。
  • 数据尊严:数据是劳动,不仅是财产。很多数据具有群体属性(邮件、基因、群聊),价值在集合层面显现。由此延伸出数据联盟(代表数据创作者集体谈判)、Data Shapley(在机器学习情境下给每个样本定“贡献值”)等思路。它们尚在探索,但都指向一个未来:让价值回到生产者

10、偏见、毒性与“被看见”的权利

大规模网络数据并不自动“代表世界”。一些研究指出:

  • 互联网文本更能代表发达国家的年轻用户;
  • Reddit/维基等平台的性别/年龄/地域分布不均;
  • 过滤“脏词”可能顺带排除了少数群体的自我表达(如方言词、群体内化称谓);
  • 骚扰与仇恨言论让部分人群“被迫沉默”。 当这些分布差异进入模型,偏见就被“封存”进参数里。解决不是一句“再多抓点”这么简单,而是在采集—清洗—记录—评估的每一环里,留出“被看见”的空间。

11、去重的艺术:别让模型“背书”

重复文本会让模型过拟合背诵膨胀参数记忆评测虚高。常见做法:

  • n-gram 窗口去重:如 13-gram 重叠阈值;
  • 语义级去重:用向量相似度找近重复;
  • 跨源对齐:避免同一新闻稿在不同转载站上重复计入;
  • 时间窗切分:减少“同题材新稿”的高度雷同。 去重不是“越严越好”,要在“保留多样表达”和“消除机械复写”间找平衡。

12、评测再升级:与其“纯抽象”,不如“接地面”

评测要避免污染,也要更贴近真实使用:

  • 时间切分评测:只用训练之后发生的事实;
  • 对抗集与长尾集:故意挑稀有、反直觉、跨域问题;
  • 价值对齐评测:把毒性、歧视、事实冲突、隐私泄露纳入指标;
  • 任务链评测:不仅看答案,还看步骤解释、引用出处、遵循指令的稳定性。 评测不是终点,而是“数据—模型—使用”闭环里的“体检单”。

13、行业落地:通用打底 + 领域精炼 + 安全护栏

企业落地的大模型,通常走“三明治”路线:

  1. 通用底座:用公共大语料学语言与常识;
  2. 领域微调/后训练:喂业务文档、客服日志、流程规范、问答对;
  3. 安全与合规:指令对齐、拒答策略、内容过滤、PII 脱敏、引用与可追溯。 数据侧的要点:
  • 采集合规:来源许可、用途限制、用户告知与撤回机制;
  • 标注机制:人群多样、双盲互审、冲突解析;
  • 版本化与可追溯:数据—模型—评测三线对齐,可复现实验;
  • 红队与灰度:上线前后持续攻防与小流量验证。

14、给数据立“家规”:十条实操清单

  1. 写数据说明书:来源、许可、清洗、偏见、限制场景,一条不少。
  2. 做来源多元化:别把通用能力押宝在单一平台。
  3. 分层清洗:模板/广告先砍,语言/重复再筛,最后做质量打分。
  4. 去重与去污分开做:先控重复,再控毒性,不要一刀切。
  5. 保护少数表达:对方言、群体术语单列规则,避免“误伤”。
  6. 时间切分:训练/评测按时间隔离,保真模型的“见识边界”。
  7. 评测多维度:准确性、鲁棒性、安全性、可追溯性一起看。
  8. 建立数据审议会:跨法务、伦理、产品、工程定期开评。
  9. 反馈闭环:上线后把用户纠错、拒答触发、越权尝试回流到数据。
  10. 记录被删与被拒:不止记录“用什么”,也记录“没用什么”和原因。

15、关于“谁的价值该被看见”

“哥,数据价值到底属于谁?”

数据不是凭空掉下来的黄金,而是千千万万人的文字、声音、图像、知识与情感的汇流。把它视为劳动,就会更尊重来源、许可与回报;把它视为生态,就会更重视治理、流动与更新。大模型的时代,让我们更有能力,但也更有义务:在追求能力的同时,守住尊严与公平

16、结语:好粮,才能出好菜

“小妹,记住一句话:数据是模型的骨与血。”

“那咱买菜讲究:新鲜、干净、营养均衡,还得看配菜手艺。”

附:关键词小抄(便于回看)

  • Common Crawl:公共网页抓取底座,量大,需重清洗。
  • WebText / OpenWebText:源自 Reddit 外链筛选的高质量网页集,用于 GPT-2(及复刻)。
  • C4:T5 使用的“重清洗”爬网语料,干净但可能“偏食”。
  • 数据污染:评测集出现在训练集里,导致乐观偏差。
  • GPT-3 配方:广谱抓取 + 分类器精选 + 去重 + 多源拼配。
  • The Pile:22 源高质量拼盘,强调“好”的补位作用。
  • 数据文档/数据治理/数据尊严:把数据当“产品”和“劳动”,可追溯、可协商、可更新。