通俗讲讲注意力机制

注意力听起来很技术，但这个想法你每次阅读时都在用。本文不带数学，讲清它在语言模型内部到底是什么意思。

research2026-04-30 11:26 KST·主编·7 分钟

注意力是现代语言模型的核心机制，而它的名字既是对它最好的解释，也是混淆的来源。这个词承诺了某种直观的东西，而这份直觉是对的。但这个术语却被埋在矩阵和 softmax 之下，听上去像一台晦涩的机器。它不是。注意力是一个清晰的想法，而你每次仔细读一个句子时，其实都已经在用它了。

这个想法是：为了理解任何一个词，模型会弄清楚哪些其他词与它相关，并恰好从那些词中汲取信息。 这种有选择的汲取就是注意力。其余的一切都是实现细节。

注意力的日常版本

读这个句子："那座奖杯没法塞进行李箱，因为它太大了。"这里的"它"指的是什么——奖杯还是行李箱？你瞬间就答上来了，而你正是通过"注意"做到的。你的大脑掂量了候选的词，判定"奖杯"才是相关的那个，并把它们联系了起来。

再读："那座奖杯没法塞进行李箱，因为它太小了。"句子结构一样，但现在"它"指的是行李箱，而你又一次毫不费力地知道了。你通过留意正确的前文、忽略其余部分，解决了这个指代。

这就是整个概念。语言模型里的注意力，正是这一瞥的机械版本——对每一个词，决定哪些其他词要紧，并把它们的含义糅合进来。模型并不天生具备你的常识，但它从海量文本中学会执行同一种有选择的张望。

模型实际在注意什么

当模型处理一个词时，它不会对周围所有的词一视同仁。它会针对每一对词，计算其中一个对另一个有多相关，并用这些相关性分数来决定每个词应当对其他词产生多大影响。

相关性分数高的词被强烈地汲取进来；分数低的词大体被忽略。所以在我们那个奖杯句子里，模型为"它"构建的表示，主要是"它"与大剂量"奖杯"的糅合，而那些无关词只留下一丝微弱的痕迹。一个词不是孤立地被理解，而是作为它所选择去看的上下文的加权混合而被理解。

这正是为什么同一个词在不同句子里能有不同含义。"bank"在一处注意"river"（河岸），在另一处注意"deposit"（存款），由此得到的表示也随之不同。注意力让含义变得依赖上下文，而非固定不变。

不带行话的查询、键与值

标准的解释会引入三个术语——查询（query）、键（key）和值（value）——它们听上去令人生畏。它们其实对应一个熟悉的想法：查找。

把每个词想成在就"它需要什么才能理解自己"提出一个问题：那就是它的查询。其余每个词都标榜自己能提供什么，像一种标签：那就是它的键。模型拿每个查询去比对所有的键，找出最匹配的——很像一次搜索，把你输入的内容与可用结果的标签相比对。凡查询与键匹配得好的地方，模型就汲取那个词的实际内容，也就是它的值。

所以一个词问"我在找什么？"，扫过其余每个词的标签，再收集那些回答了它问题的词的内容。查询、键、值不过是这次查找里的三个角色。这个机制是一次柔性的、习得的搜索，每个词都对其余每个词同时运行一遍。

为什么"柔性"很重要

普通搜索会返回一份硬性的清单：这些结果匹配，其余的不匹配。注意力比那要柔和。它不是挑出唯一的赢家，而是把焦点铺开，给最相关的词更大的权重、给其余的词更小的权重，但很少给到零。

这种柔性是一种特性，而非妥协。语言里充满了部分相关——一个词可能主要依赖某个前文的词，但也略微依赖另外两个。通过糅合而非二选一，注意力得以捕捉这些分级的依赖关系。它可以重重地倚靠那个显而易见的指代，同时仍在混合里保留一点周围的上下文。结果是一种表示，它反映了含义实际运作时那种凌乱、交叠的方式。

同时存在多种相关性

两个词之间相关，很少只有一个原因。"她"可能出于语法原因连向前文的某个名字，因为是某个动词的主语而连向那个动词，又因为某个主题词是句子所谈论的对象而连向它。这些是不同的关系，把它们硬塞进一次注意力运算，会迫使模型把它们平均掉。

所以模型会并排运行好几次注意力运算，每一次都可以自由地各有专攻。一次可以追踪语法一致性，另一次可以追踪谁在做什么，再一次可以把住主题的线索。它们的发现被合并起来，于是每个词最终都被多种同时存在的相关性概念所塑造。正是这一点，让注意力能够捕捉语言的层叠结构，而不是一种被压平的、单一的"相关"。

注意力不是什么

有必要打消一种诱人的误读。注意力并不意味着模型像人那样"理解"或"有意识地聚焦"。那些相关性分数是习得的统计模式，被调校得让预测结果良好。当模型从"它"注意到"奖杯"时，它并不是在对实物进行推理；它是从海量文本中学到，这就是那条能带来良好续写的模式。

注意力本身也不保证模型会注意到正确的东西。它可能抓住一个误导性的相关，汲取错误的上下文，从而自信地犯错。这个机制强大而灵活，但它是一种习得的近似，而非一个可靠的推理者。明白这一点，能让这个比喻保持有用，又不至于夸大其词。

为什么这一个想法就够了

那篇开启现代纪元的论文，其标题"Attention Is All You Need"（注意力就是你所需要的一切）是一个有意为之的主张。更早的架构是把注意力外接到其他机器上。而那个洞见在于：单凭注意力，叠得足够深、并行地运行，就足以完成把词与词相互关联起来的整份工作。

事实证明，去掉其余一切、只留下注意力，既更简单又更强大。它让模型得以直接横跨整个序列去张望，而不必让信息沿着一条脆弱的链条往下传递，并且让所有这些计算同时发生。正是这种触及范围与并行性的结合，让注意力不只是改进了语言模型——它成了语言模型的根基。

总结

注意力是这样一门功夫：对每一个词，决定哪些其他词相关，并把它们的含义糅合进来。 它是你弄清"它"指代什么时那一瞥的机械形态。查询-键-值这套机器，不过是一次柔性的、习得的查找，对整个序列同时运行，而它的并行版本则一并捕捉了多种相关性。抛开行话和方程，注意力恰恰就是它名字所说的那样：弄清什么要紧，并往那里看。

#attention#transformers#context#deep-learning

原始来源

Vaswani et al. — Attention Is All You Need (arXiv)Hugging Face — Transformers documentation