welclaiAI·TREND·DIGEST
模型

大语言模型是如何训练出来的,用大白话讲

训练一个语言模型是分阶段进行的,而不是一步登天的魔法。本文用大白话讲清楚每个阶段做什么,以及顺序为何重要。

models2026-06-01 12:06 KST·主编·7 分钟

一个大语言模型给人的感觉,可能像是一个单一的、成品的东西——你输入点什么,它就回答你。但那个在回答你的东西是分阶段建造出来的,每个阶段做的是不同的工作。如果你脑海里始终只有"AI 从互联网上学习"这一幅画面,你就会错过模型为何会有那些表现的原因:为什么它有时听起来自信却是错的、为什么它会遵循指令、以及为什么两个用相似数据训练的模型感觉会如此不同。这篇文章将按事情发生的顺序,用大白话带你走过几个主要阶段。

核心思想:预测下一段文本

剥去行话,一个语言模型只做一件事:它预测接下来是什么。给定一段文本,它估算每一个可能的下一段有多大可能性,从中挑选,然后重复。这就是它机械层面的全部工作。

让这件事变得强大的,是把下一段预测得好这件事,竟然需要大量隐含的知识。要猜出补全"那个国家的首都是"的那个词,模型必须吸收了关于地理的某些东西。要正确续写一段代码,它必须吸收了关于语法的某些东西。没人直接把这些事实编程进去。它们是在海量文本上把预测做到非常好的副产品。记住这一点:模型"知道"的一切,都是它为了服务于预测而习得的知识,而不是作为真理被交到它手上的事实。

第一阶段:预训练

第一个也是最大的阶段是预训练。模型被展示海量的文本,并被反复要求预测下一段,每次猜错时它的内部设置就被微微推动一下。在数十亿次这样的微小修正中,它建立起一种关于语言如何运作、什么往往接在什么后面的统计直觉。

关于这个阶段,有几点值得理解:

  • 它是自监督的。 没人手工标注数据。每次预测的"正确答案"就是实际的下一段文本,而它本来就在那里。这就是它能够扩展的原因:监督是免费的。
  • 它是宽泛的,而非为行为而精挑细选的。 预训练数据是文本的一次广泛扫荡。模型学习那些文本里的模式——有益的和无益的一并学走。它此时还没有任何"助手"的意识。
  • 它是迄今为止最昂贵的阶段。 人们与训练模型联系在一起的那笔沉重的算力成本,大部分都在这里。

预训练之后,你得到一个流畅且博学、但还不太适合交谈的模型。它会乐呵呵地按模式所暗示的任何方向续写你的文本,包括无视你真正的问题,去模仿一个问答页面的风格。它是没有礼貌的原始能力。

第二阶段:教它遵循指令

下一个阶段弥合了"能续写文本"和"按我说的做"之间的鸿沟。这通常叫做指令微调或监督微调。模型被展示许多这是一个请求、这是一个好回应形式的示例,于是它学会以那种形态生成回应。

这是一个比预训练更小、更刻意的阶段。这些示例是被编写或挑选出来,用以示范你想要的行为的:直接回答、遵循格式要求、拒绝它该拒绝的事、承认不确定。模型已经从预训练中具备了底层能力;这个阶段把那份能力指向了"做一个有用的助手"这份工作。

这里重要的心智转变是,遵循指令是被训练出来的,而非天生的。模型并不天然倾向于回答你的问题,而非模仿你问题的体裁。它之所以这么做,是因为它被反复展示,这才是被期望的行为。

第三阶段:从偏好中学习

示范能起的作用是有限的。对许多请求来说,并不存在唯一的正确答案——只有更好和更差的。为了捕捉这一点,模型要经历一个从偏好中学习的阶段:人类(以及越来越多充当评分者的其他模型)比较两个回应,指出哪个更好。然后模型被调整,以多生成被偏好的、少生成不被偏好的。

这其中最广为人知的版本是基于人类反馈的强化学习(RLHF),尽管存在好几种变体。机制各异,但目标一致:把模型的倾向塑造成人们真正觉得有用、诚实、得体的回应,而不只是貌似合理的。

这个阶段解释了模型"个性"的很大一部分。它是含糊其辞还是斩钉截铁、它如何处理敏感请求、它默认有多啰嗦——这其中很多都是偏好训练的残留,而非原始知识。它也是很多安全行为被灌输进去的地方。

为什么模型仍然会出错

理解了这些阶段,失效方式就不那么神秘了。

模型会产生幻觉——满怀自信地陈述虚假内容——部分原因在于它的核心技能是生成合理的续写,而一个流畅的错误答案,可能比一句诚实的"我不知道"听起来更合理。训练在与此抗衡,但它无法彻底移除一个被烘焙进目标本身的倾向。

模型有一个知识截止,因为预训练用的是采集到某个时间点为止的数据;那之后发生的事,根本就不在它学习的文本里。

模型可能不一致,因为它是从一个可能续写的分布中采样,而不是从一个固定的数据库中读取。同一件事问两遍,穿过那个分布的路径可能不同。

这些在通常意义上都不是 bug。它们直接源自这东西被建造出来的方式。

评估与迭代的位置

训练不是一条从起点到成品的直线。在这些阶段之间和之后,模型会被评估——在任务上测试、探查不安全行为、检查是否退步——而结果会反馈回更多的调优中。一个真实的模型是许多轮训练、衡量、调整、重复的产物。上面那个干净的三阶段故事是骨架;实践中,在它之上还层层叠加了大量的迭代,其中很多都瞄准修复测试期间发现的具体弱点。

总结

一个语言模型不是一步训练出来的,也不只是"压缩的互联网"。它被预训练来预测文本、吸收宽泛的知识,被调优来遵循指令,并被偏好塑造得有用且安全——而评估与迭代贯穿始终。每个阶段都解释了你能在成品里看到的某些东西:预训练给了它知识和流畅、指令微调给了它回答你的习惯、偏好训练给了它礼貌和判断力。当一个模型让你意外时——自信却错误、莫名谨慎、卡在最近事件之前——你通常都能把这种行为追溯回其中某一个阶段。这个心智模型对你的帮助,远胜于想象有一个机器"学会了"的单一神秘时刻。

#training#pretraining#fine-tuning#rlhf