第二章：什么是大语言模型 | CXYKK.COM 程序员快看

“哥，最近大家都在说什么大模型、大语言模型的，你能不能给我讲讲，这玩意到底是啥呀？听得我一头雾水。”

“小妹啊，你这是问到点子上了。”我抖了抖手里的咖啡杯，飘起一缕香气，“不过啊，你得先去楼下帮我买杯冰美式，再加两份浓缩。

别忘了，人工智能都得喂数据，我这老腰老胃也得喂咖啡。”

（十分钟后）

“小妹啊，你怎么买的拿铁？还多加了奶油？”

“哥，今天太热了，你喝冰美式伤胃，不如换拿铁补钙。”

我心里一乐，这妹子还挺会关心人。好吧，那咱就边喝边聊，慢慢给你展开这门当下最火的技术——语言模型。

01、语言模型是个啥？

“哥，你别绕弯子，语言模型就是能写文章、能聊天的那个东西吧？”

“算是，但远远不止。”我敲了敲桌子，“简单来说，语言模型（Language Model，简称 LM）就是一个能对词语序列分配概率的模型。”

小妹眨巴着眼睛，一脸懵逼。

我举个例子：

假设词汇表只有 {the, mouse, ate, cheese} 这几个单词。那句子 the mouse ate the cheese 在语言模型眼里就是一个序列，它会计算出这个序列出现的概率，可能是 0.02。而如果你写成 the cheese ate the mouse，概率就会低得多，可能是 0.0001。

“为啥？”小妹好奇。

“因为老鼠吃奶酪合理，奶酪吃老鼠离谱。”我笑着说，“这就是语言模型在干的事：它在背后其实藏着对语法和常识的理解，虽然没人明确教它，但它通过数据学出来了。”

02、输入输出问题

“小妹啊，你可能没意识到，语言模型面对的第一个问题就是：电脑不懂字，只懂数字。”

“那怎么办？”

“得先把文字转成数字。”我举个小例子：假设只有字母 a、b 和标点 .，那我们可以给它们做一个 独热编码（One-hot Encoding）：

a → [1,0,0]
b → [0,1,0]
. → [0,0,1]

这样一来，句子 ab. 就能变成数字序列输入神经网络。输出的时候呢？神经网络给出的也是一堆概率，比如 [0.1,0.8,0.1]，我们就映射回字符 b。

“原来是这样！输入输出都得过一遍翻译啊。”

“没错，语言模型就像个翻译官，把人类的文字翻成机器能懂的数字，再把机器的结果翻成文字。”

03、语言模型的发展简史

1）香农的信息论

“小妹，你听说过克劳德·香农吗？”

“谁？”

“信息论之父。他在 1948 年提出了熵的概念，研究语言的可预测性。比如，你看到句子 the cat sat on the ...，你大概率能猜出下一个词是 mat，这就是语言的规律。”

他还玩过个“香农游戏”：让人类猜下一个字母，然后统计平均需要多少次才能猜对，从而估计英语的熵。其实这就是人类版的语言模型。

2）N-gram 模型

后来，人们发明了 N-gram 模型。比如 bigram（二元模型） 就是“当前词只依赖于前一个词”。

比如：

p(cheese | the mouse ate the) ≈ p(cheese | ate the)

它便宜好用，但缺点是“短视”，只看得见局部。比如你写 “Stanford has a new course on large language models. It will be taught by ___”，bigram 模型可能猜不出答案是 professor 或 Andrew Ng，因为它看不到远处的语境。

3）神经语言模型

2003 年，Bengio 提出了第一个 神经语言模型。它用神经网络来预测下一个词，比 N-gram 更强，因为它能在统计上捕捉更复杂的规律。

但当时计算机算力有限，只能在几百万词上训练，规模太小。结果呢？N-gram 模型继续统治了十多年。

4）RNN 与 LSTM

后来，RNN（循环神经网络）登场了，它能记住更长的上下文，不再局限于 N-gram 的短视。再后来，LSTM（长短期记忆网络）改进了 RNN 的遗忘问题，让语言模型真正能“理解”更长的语境。

5）Transformer 与大模型时代

真正的革命发生在 2017 年，Google 提出了 Transformer。它的核心机制叫 自注意力机制（Self-Attention），能并行处理序列，捕捉长距离依赖。

这直接把语言模型推向了一个新高度。随后，BERT、GPT、T5、GPT-3、ChatGPT 一路狂飙，模型参数从几百万涨到几千亿。

“小妹，你知道 GPT-3 有多少参数吗？” “不知道。” “1750 亿。” “小妹惊呆了：那它不比咱们脑细胞还多？” “数量上比不过，但已经够厉害了。”

04、语言模型能干啥？

“小妹啊，你可别小看语言模型，它不是只能写作文，还能干不少活呢。”

生成文本：给它个开头，它能续写一篇文章，就像开盲盒一样。
翻译：从英文到中文，从中文到法文，分分钟。
问答：你问“乔布斯是谁”，它能回答个大概。
总结：给它一大段文字，它能帮你浓缩成摘要。
对话：就像咱俩现在这样，能侃天侃地。
代码生成：给它一句需求，比如“写个冒泡排序”，它就能啪嗒写出代码。

“哥，这也太万能了吧？” “所以大家才叫它‘基础模型’，因为它像地基一样，啥都能盖在上面。”

05、语言模型的风险

“小妹啊，世上没完美的东西，语言模型也有不少问题。”

可靠性：它有时候一本正经地胡说八道，给你“幻觉”。
偏见：它从网上学来的数据里有偏见，可能无意中强化刻板印象。
有害性：可能生成冒犯性、攻击性的内容。
虚假信息：能写出真假难辨的新闻，被滥用就是灾难。
安全性：有人甚至可以往训练数据里偷偷放毒，影响模型输出。
版权问题：它学过的书籍文章大多有版权，生成内容时可能踩雷。
成本与环境：训练 GPT-3 花了几百万美元，消耗的电能够一个小镇用好几年。

“小妹啊，所以你得知道，大模型不是全能神，它有光明的一面，也有阴影的一面。”

06、未来展望

未来的语言模型会走向哪里呢？

更大更强：参数继续膨胀，能力越来越惊人。
跨模态：不仅能理解文字，还能看图、听声音、甚至看视频。
更安全可控：研究者会努力减少偏见和幻觉。
开源与共享：像 Hugging Face、EleutherAI 等社区推动开放科学，避免被少数公司垄断。
多语言与普惠：未来模型会更好地支持小语种，让全球更多人受益。

“哥，那我们程序员以后是不是都要失业了？” “哎，别慌，模型是工具，程序员是使用工具的人。语言模型能写代码，但还得有人告诉它要写啥。”

07、总结

“小妹啊，总结一下：”

语言模型就是对词序列分配概率的模型；
它的发展历程是：香农信息论 → N-gram → 神经网络 → Transformer → 大模型；
它能写、能翻译、能总结、能对话，能力惊人；
但也有幻觉、偏见、能耗等风险；
未来它会更大、更智能、更普惠，但仍需人类好好驾驭。

我喝完最后一口拿铁，把杯子往桌上一放：“小妹啊，咱们今天的课就到这儿吧。”

“小妹点点头，眼睛亮晶晶的：‘哥，我好像真的懂了！’”

“懂就好，下次你再给哥买咖啡的时候，别忘了要冰美式，别再给我整拿铁了！”