大语言模型是如何训练出来的，用大白话讲

训练一个语言模型是分阶段进行的，而不是一步登天的魔法。本文用大白话讲清楚每个阶段做什么，以及顺序为何重要。

models2026-06-01 12:06 KST·主编·7 分钟

一个大语言模型给人的感觉，可能像是一个单一的、成品的东西——你输入点什么，它就回答你。但那个在回答你的东西是分阶段建造出来的，每个阶段做的是不同的工作。如果你脑海里始终只有"AI 从互联网上学习"这一幅画面，你就会错过模型为何会有那些表现的原因：为什么它有时听起来自信却是错的、为什么它会遵循指令、以及为什么两个用相似数据训练的模型感觉会如此不同。这篇文章将按事情发生的顺序，用大白话带你走过几个主要阶段。

核心思想：预测下一段文本

剥去行话，一个语言模型只做一件事：它预测接下来是什么。给定一段文本，它估算每一个可能的下一段有多大可能性，从中挑选，然后重复。这就是它机械层面的全部工作。

让这件事变得强大的，是把下一段预测得好这件事，竟然需要大量隐含的知识。要猜出补全"那个国家的首都是"的那个词，模型必须吸收了关于地理的某些东西。要正确续写一段代码，它必须吸收了关于语法的某些东西。没人直接把这些事实编程进去。它们是在海量文本上把预测做到非常好的副产品。记住这一点：模型"知道"的一切，都是它为了服务于预测而习得的知识，而不是作为真理被交到它手上的事实。

第一阶段：预训练

第一个也是最大的阶段是预训练。模型被展示海量的文本，并被反复要求预测下一段，每次猜错时它的内部设置就被微微推动一下。在数十亿次这样的微小修正中，它建立起一种关于语言如何运作、什么往往接在什么后面的统计直觉。

关于这个阶段，有几点值得理解：

它是自监督的。 没人手工标注数据。每次预测的"正确答案"就是实际的下一段文本，而它本来就在那里。这就是它能够扩展的原因：监督是免费的。
它是宽泛的，而非为行为而精挑细选的。 预训练数据是文本的一次广泛扫荡。模型学习那些文本里的模式——有益的和无益的一并学走。它此时还没有任何"助手"的意识。
它是迄今为止最昂贵的阶段。 人们与训练模型联系在一起的那笔沉重的算力成本，大部分都在这里。

预训练之后，你得到一个流畅且博学、但还不太适合交谈的模型。它会乐呵呵地按模式所暗示的任何方向续写你的文本，包括无视你真正的问题，去模仿一个问答页面的风格。它是没有礼貌的原始能力。

第二阶段：教它遵循指令

下一个阶段弥合了"能续写文本"和"按我说的做"之间的鸿沟。这通常叫做指令微调或监督微调。模型被展示许多这是一个请求、这是一个好回应形式的示例，于是它学会以那种形态生成回应。

这是一个比预训练更小、更刻意的阶段。这些示例是被编写或挑选出来，用以示范你想要的行为的：直接回答、遵循格式要求、拒绝它该拒绝的事、承认不确定。模型已经从预训练中具备了底层能力；这个阶段把那份能力指向了"做一个有用的助手"这份工作。

这里重要的心智转变是，遵循指令是被训练出来的，而非天生的。模型并不天然倾向于回答你的问题，而非模仿你问题的体裁。它之所以这么做，是因为它被反复展示，这才是被期望的行为。

第三阶段：从偏好中学习

示范能起的作用是有限的。对许多请求来说，并不存在唯一的正确答案——只有更好和更差的。为了捕捉这一点，模型要经历一个从偏好中学习的阶段：人类（以及越来越多充当评分者的其他模型）比较两个回应，指出哪个更好。然后模型被调整，以多生成被偏好的、少生成不被偏好的。

这其中最广为人知的版本是基于人类反馈的强化学习（RLHF），尽管存在好几种变体。机制各异，但目标一致：把模型的倾向塑造成人们真正觉得有用、诚实、得体的回应，而不只是貌似合理的。

这个阶段解释了模型"个性"的很大一部分。它是含糊其辞还是斩钉截铁、它如何处理敏感请求、它默认有多啰嗦——这其中很多都是偏好训练的残留，而非原始知识。它也是很多安全行为被灌输进去的地方。

为什么模型仍然会出错

理解了这些阶段，失效方式就不那么神秘了。

模型会产生幻觉——满怀自信地陈述虚假内容——部分原因在于它的核心技能是生成合理的续写，而一个流畅的错误答案，可能比一句诚实的"我不知道"听起来更合理。训练在与此抗衡，但它无法彻底移除一个被烘焙进目标本身的倾向。

模型有一个知识截止，因为预训练用的是采集到某个时间点为止的数据；那之后发生的事，根本就不在它学习的文本里。

模型可能不一致，因为它是从一个可能续写的分布中采样，而不是从一个固定的数据库中读取。同一件事问两遍，穿过那个分布的路径可能不同。

这些在通常意义上都不是 bug。它们直接源自这东西被建造出来的方式。

评估与迭代的位置

训练不是一条从起点到成品的直线。在这些阶段之间和之后，模型会被评估——在任务上测试、探查不安全行为、检查是否退步——而结果会反馈回更多的调优中。一个真实的模型是许多轮训练、衡量、调整、重复的产物。上面那个干净的三阶段故事是骨架；实践中，在它之上还层层叠加了大量的迭代，其中很多都瞄准修复测试期间发现的具体弱点。

总结

一个语言模型不是一步训练出来的，也不只是"压缩的互联网"。它被预训练来预测文本、吸收宽泛的知识，被调优来遵循指令，并被偏好塑造得有用且安全——而评估与迭代贯穿始终。每个阶段都解释了你能在成品里看到的某些东西：预训练给了它知识和流畅、指令微调给了它回答你的习惯、偏好训练给了它礼貌和判断力。当一个模型让你意外时——自信却错误、莫名谨慎、卡在最近事件之前——你通常都能把这种行为追溯回其中某一个阶段。这个心智模型对你的帮助，远胜于想象有一个机器"学会了"的单一神秘时刻。

#training#pretraining#fine-tuning#rlhf

原始来源

Hugging Face — Documentation Anthropic — Documentation