welclaiAI·TREND·DIGEST
教程

为 AI 回答添加引用

引用能把一个无法验证的回答变成可核查的回答。本文讲解如何让模型引用来源,并且诚实地引用。

tutorials2026-05-13 17:25 KST·主编·7 分钟

没有来源的回答,你只能选择信或不信;有来源的回答,你可以亲自核查。这一差别正是引用的全部价值所在:它把模型自信的措辞,转化为读者可以追溯到出处的陈述。本文要讲的,是如何让语言模型为它的回答标注背后的来源——而同样重要的是,让它诚实地标注,而不是编造看似可信的参考文献。

为什么引用值得费这番功夫

引用同时承担三项任务。它让读者可以验证一个主张,而不必凭空相信。它建立信任,因为带来源的回答传递出一个信号:系统是基于真实材料的,而非临场发挥。它还为你这位构建者提供了一种检测机制:模型无法归因到任何来源的主张,恰恰是最有可能被编造出来的那一类。引用这个动作本身,强制进行了一次纯生成所跳过的核查。

最后这一点,是人们最容易低估的。要求模型引用,不只是为读者提供的一项功能——它会改变模型的行为。当指令是"回答,并为每个主张引用来源"时,模型必须为它所说的话找到支撑,而那些没有支撑的陈述就会浮现出来。引用是内建于输出格式中的质量控制,而不仅仅是一种礼貌。

提供模型真正能够指向的来源

只有当模型面前摆着真实的来源可供引用时,它才能诚实地引用。如果你让模型凭训练记忆作答并附上引用,它确实会给出引用——而其中相当一部分会是编造的,因为它生成看似可信的参考文献,与它生成看似可信的事实,是同一套机制。解决之道是结构性的:把源材料放进提示词里,并要求模型只从这些材料中引用。

为每个来源赋予一个稳定的标识符,让模型可以引用——一个编号、一个简短标签、一个标题。这样引用就成了指向你所掌控材料的指针,而不是伸向模型记忆的一只手。当回答说"根据来源 2"时,你可以查看来源 2 并加以确认。这是其余一切的根基:引用只有在指向所提供的文本时才可信,指向回忆出来的文本时则绝不可信。

明确要求引用的格式

模型不会去猜你偏好的引用样式;你得告诉它。先决定输出中引用应该是什么样子——每个主张后面的行内标记、文末的编号参考列表、带来源标签的引文片段——然后精确地指明它,最好配上一个简短示例。像"附上来源"这样含糊的指令会产生不一致的结果:有时是一份列表,有时是行内,有时只是含糊地指向"那份文档"。

让格式匹配回答的使用方式。对于读者会点击跳转的界面,与参考列表关联的行内标记效果很好。对于将被审计的回答,每个主张旁边附上引文片段能让验证立即完成。无论你选哪种,都把确切的样式展示一次,并要求模型对每个主张都遵守它。引用格式的一致性,正是让引用在下游可用而非沦为装饰的关键。

把每个主张系到它的支撑上,而不是把整个回答系到一堆链接上

一种常见的弱模式,是一段自信的回答后面跟着所有提供来源的参考书目,却没有任何迹象表明哪个来源支撑哪个主张。那其实算不上引用——只是一种姿态。它告诉读者这个回答"基于这些文档的某处",却不让读者核查任何具体陈述。引用的全部意义,就在于某个特定主张与支撑它的那段特定文本之间的关联。

明确地要求这种粒度:每个事实性主张都应携带自己的引用,指向支撑它的那个具体来源。这对模型来说是更多的工作,但能产出更诚实的回答,因为一个无法系到任何来源的主张如今无处藏身。当每个陈述都必须指明其支撑时,没有支撑的陈述就会凸显出来——既对正在写作的模型如此,也对正在阅读的你如此。

处理没有支撑的情况

有时所提供的来源里并不包含答案。如果你不为此预作打算,模型就会用一个无引用的论断来掩盖这个缺口,或者更糟,用一条编造的引用,指向一个其实并未如此陈述的来源。要指示模型在缺乏支撑时该怎么做:说明来源中不包含该答案,而不是杜撰一个,或引用某个并不支撑该主张的东西。

这把引用与诚实联系了起来。一个必须为每个主张引用、并且必须在做不到时如实承认的系统,只能说出它能够支撑的话。"无支撑"这条路径,正是防止引用要求悄悄变成编造要求的关键——没有它,一个执意要满足"为每个主张引用"的模型,可能干脆制造出它所需要的引用。

验证引用,而不只是把它们显示出来

模型产出的引用与其他任何主张一样,可能是错的:因为错误的理由指向了正确的来源,或指向了一个其实并不包含所引事实的来源。把引用展示给读者却不加核查,会带来一种虚假的严谨感。最强健的系统会验证——至少以程序化的方式——每个被引来源确实包含支撑相应主张的文本。

这之所以可行,恰恰是因为你提供了来源并要求了细粒度的引用。你可以核查被引来源的 ID 是否存在、引用的片段是否出现在其中、该主张是否能被所引段落合理地支撑。未通过核查的引用会被标记或剔除。其结果是一条流水线,其中一条引用表里如一,而不是一件被读者想当然认为已核查、实则未经核查的装饰品。

总结

引用是 AI 回答赢得信任的方式:它让主张可被核查,传递出有依据的信号,并迫使模型为它所说的话找到支撑。要让引用诚实,就给模型真实的来源去指向,精确地指定引用格式,并要求每个主张携带自己的支撑,而不是含糊地指向一堆链接。为没有支撑的情况预作打算,使这一要求不致滋生编造的参考文献,并去验证引用,而不是凭信任把它们显示出来。这样做之后,引用就不再是装饰,而成为它本该成为的东西——读者可以拉动以确认回答属实的一条线索。

#citations#grounding#rag#reliability