第二章:什么是大语言模型

“哥,最近大家都在说什么大模型、大语言模型的,你能不能给我讲讲,这玩意到底是啥呀?听得我一头雾水。”

“小妹啊,你这是问到点子上了。”我抖了抖手里的咖啡杯,飘起一缕香气,“不过啊,你得先去楼下帮我买杯冰美式,再加两份浓缩。

别忘了,人工智能都得喂数据,我这老腰老胃也得喂咖啡。”

(十分钟后)

“小妹啊,你怎么买的拿铁?还多加了奶油?”

“哥,今天太热了,你喝冰美式伤胃,不如换拿铁补钙。”

我心里一乐,这妹子还挺会关心人。好吧,那咱就边喝边聊,慢慢给你展开这门当下最火的技术——语言模型。

01、语言模型是个啥?

“哥,你别绕弯子,语言模型就是能写文章、能聊天的那个东西吧?”

“算是,但远远不止。”我敲了敲桌子,“简单来说,语言模型(Language Model,简称 LM)就是一个能对词语序列分配概率的模型。”

小妹眨巴着眼睛,一脸懵逼。

我举个例子:

假设词汇表只有 {the, mouse, ate, cheese} 这几个单词。那句子 the mouse ate the cheese 在语言模型眼里就是一个序列,它会计算出这个序列出现的概率,可能是 0.02。而如果你写成 the cheese ate the mouse,概率就会低得多,可能是 0.0001。

“为啥?”小妹好奇。

“因为老鼠吃奶酪合理,奶酪吃老鼠离谱。”我笑着说,“这就是语言模型在干的事:它在背后其实藏着对语法和常识的理解,虽然没人明确教它,但它通过数据学出来了。”

02、输入输出问题

“小妹啊,你可能没意识到,语言模型面对的第一个问题就是:电脑不懂字,只懂数字。”

“那怎么办?”

“得先把文字转成数字。”我举个小例子:假设只有字母 ab 和标点 .,那我们可以给它们做一个 独热编码(One-hot Encoding):

  • a → [1,0,0]
  • b → [0,1,0]
  • . → [0,0,1]

这样一来,句子 ab. 就能变成数字序列输入神经网络。输出的时候呢?神经网络给出的也是一堆概率,比如 [0.1,0.8,0.1],我们就映射回字符 b

“原来是这样!输入输出都得过一遍翻译啊。”

“没错,语言模型就像个翻译官,把人类的文字翻成机器能懂的数字,再把机器的结果翻成文字。”

03、语言模型的发展简史

1)香农的信息论

“小妹,你听说过克劳德·香农吗?”

“谁?”

“信息论之父。他在 1948 年提出了熵的概念,研究语言的可预测性。比如,你看到句子 the cat sat on the ...,你大概率能猜出下一个词是 mat,这就是语言的规律。”

他还玩过个“香农游戏”:让人类猜下一个字母,然后统计平均需要多少次才能猜对,从而估计英语的熵。其实这就是人类版的语言模型。


2)N-gram 模型

后来,人们发明了 N-gram 模型。比如 bigram(二元模型) 就是“当前词只依赖于前一个词”。

比如:

  • p(cheese | the mouse ate the)p(cheese | ate the)

它便宜好用,但缺点是“短视”,只看得见局部。比如你写 “Stanford has a new course on large language models. It will be taught by ___”,bigram 模型可能猜不出答案是 professorAndrew Ng,因为它看不到远处的语境。


3)神经语言模型

2003 年,Bengio 提出了第一个 神经语言模型。它用神经网络来预测下一个词,比 N-gram 更强,因为它能在统计上捕捉更复杂的规律。

但当时计算机算力有限,只能在几百万词上训练,规模太小。结果呢?N-gram 模型继续统治了十多年。


4)RNN 与 LSTM

后来,RNN(循环神经网络)登场了,它能记住更长的上下文,不再局限于 N-gram 的短视。再后来,LSTM(长短期记忆网络)改进了 RNN 的遗忘问题,让语言模型真正能“理解”更长的语境。


5)Transformer 与大模型时代

真正的革命发生在 2017 年,Google 提出了 Transformer。它的核心机制叫 自注意力机制(Self-Attention),能并行处理序列,捕捉长距离依赖。

这直接把语言模型推向了一个新高度。随后,BERT、GPT、T5、GPT-3、ChatGPT 一路狂飙,模型参数从几百万涨到几千亿。

“小妹,你知道 GPT-3 有多少参数吗?” “不知道。” “1750 亿。” “小妹惊呆了:那它不比咱们脑细胞还多?” “数量上比不过,但已经够厉害了。”


04、语言模型能干啥?

“小妹啊,你可别小看语言模型,它不是只能写作文,还能干不少活呢。”

  1. 生成文本:给它个开头,它能续写一篇文章,就像开盲盒一样。
  2. 翻译:从英文到中文,从中文到法文,分分钟。
  3. 问答:你问“乔布斯是谁”,它能回答个大概。
  4. 总结:给它一大段文字,它能帮你浓缩成摘要。
  5. 对话:就像咱俩现在这样,能侃天侃地。
  6. 代码生成:给它一句需求,比如“写个冒泡排序”,它就能啪嗒写出代码。

“哥,这也太万能了吧?” “所以大家才叫它‘基础模型’,因为它像地基一样,啥都能盖在上面。”


05、语言模型的风险

“小妹啊,世上没完美的东西,语言模型也有不少问题。”

  1. 可靠性:它有时候一本正经地胡说八道,给你“幻觉”。
  2. 偏见:它从网上学来的数据里有偏见,可能无意中强化刻板印象。
  3. 有害性:可能生成冒犯性、攻击性的内容。
  4. 虚假信息:能写出真假难辨的新闻,被滥用就是灾难。
  5. 安全性:有人甚至可以往训练数据里偷偷放毒,影响模型输出。
  6. 版权问题:它学过的书籍文章大多有版权,生成内容时可能踩雷。
  7. 成本与环境:训练 GPT-3 花了几百万美元,消耗的电能够一个小镇用好几年。

“小妹啊,所以你得知道,大模型不是全能神,它有光明的一面,也有阴影的一面。”


06、未来展望

未来的语言模型会走向哪里呢?

  • 更大更强:参数继续膨胀,能力越来越惊人。
  • 跨模态:不仅能理解文字,还能看图、听声音、甚至看视频。
  • 更安全可控:研究者会努力减少偏见和幻觉。
  • 开源与共享:像 Hugging Face、EleutherAI 等社区推动开放科学,避免被少数公司垄断。
  • 多语言与普惠:未来模型会更好地支持小语种,让全球更多人受益。

“哥,那我们程序员以后是不是都要失业了?” “哎,别慌,模型是工具,程序员是使用工具的人。语言模型能写代码,但还得有人告诉它要写啥。”


07、总结

“小妹啊,总结一下:”

  • 语言模型就是对词序列分配概率的模型;
  • 它的发展历程是:香农信息论 → N-gram → 神经网络 → Transformer → 大模型;
  • 它能写、能翻译、能总结、能对话,能力惊人;
  • 但也有幻觉、偏见、能耗等风险;
  • 未来它会更大、更智能、更普惠,但仍需人类好好驾驭。

我喝完最后一口拿铁,把杯子往桌上一放:“小妹啊,咱们今天的课就到这儿吧。”

“小妹点点头,眼睛亮晶晶的:‘哥,我好像真的懂了!’”

“懂就好,下次你再给哥买咖啡的时候,别忘了要冰美式,别再给我整拿铁了!”