welclaiAI·TREND·DIGEST

한국어·EN·日本語·中文·Español

全部模型工具研究应用案例政策教程

研究

用浅显方式解读论文与技术

从第一性原理理解检索增强生成（RAG）

RAG 常被讲成一堆工具的堆叠。把那些剥掉，它就是一个简单的想法：让模型在回答之前先读到正确的材料。下面讲清楚它究竟如何运作。

#rag#retrieval#embeddings

06-12 14:40·7 分钟

为什么上下文长度难以扩展

更长的上下文窗口听上去只是个简单的旋钮。其底层却在对抗一种增长快过文本本身的成本——以及一种被摊得越来越薄的注意力。

#context-window#attention#scaling

06-08 18:48·7 分钟

灾难性遗忘与持续学习

教神经网络一些新东西，它往往就忘了原先会的。正是这个顽固问题，让模型成批学习，而非以流的方式学习。

#continual-learning#forgetting#training

06-06 13:46·7 分钟

思维链：为什么推理步骤能起作用

让模型"一步一步地思考"，它在难题上的表现会明显变好。仔细想想，这其实很奇怪。本文解释它为什么有效。

#chain-of-thought#reasoning#prompting

06-05 12:11·7 分钟

RLHF 究竟做了什么

RLHF 是把一个原始文本预测器变成你能对话之物的那一步。本文谈它究竟改变了什么——以及同样重要的，它没有改变什么。

#rlhf#alignment#fine-tuning

05-25 15:07·7 分钟

蒸馏：用大模型教出小模型

知识蒸馏训练一个小模型去模仿一个大模型。诀窍不在于复制答案，而在于复制大模型不确定的方式。

#distillation#compression#training

05-21 13:52·7 分钟

超越基准的评估：人类与模型裁判

基准测量的是易于打分的东西。对于开放式的工作，你需要判断——来自人，或来自代替人的模型。两者都可能误导你。

#evaluation#llm-as-judge#benchmarks

05-06 16:53·7 分钟

模型是如何被评估的：基准测试，以及它们为何会撒谎

基准分数看起来像测量结果，但它们其实是论证。本文讲清楚模型评估实际如何运作，以及一个高分为何仍可能误导你。

#benchmarks#evaluation#leaderboards

05-06 16:14·7 分钟

分词器,以及它为何对各种语言至关重要

语言模型从不见到词语。它见到的是 token。文本如何被切成 token,悄悄决定了跨语言的成本、速度与公平。

#tokenization#languages#nlp

05-05 08:17·7 分钟

通俗讲讲注意力机制

注意力听起来很技术，但这个想法你每次阅读时都在用。本文不带数学，讲清它在语言模型内部到底是什么意思。

#attention#transformers#context

04-30 11:26·7 分钟

无需恐慌地理解幻觉

一个会编造内容的语言模型并没有出故障——它正是在做自己被造出来要做的事。本文讲清楚幻觉为何发生，以及如何驾驭它。

#hallucination#grounding#reliability

04-23 18:05·7 分钟

合成数据:用模型的输出来训练模型

当真实数据告急时,模型可以生成自己的训练数据。这很强大,有点循环,而且如果忘了它从何而来就很危险。

#synthetic-data#training#data

04-22 11:19·7 分钟

微调、RAG 还是提示词：一份决策指南

让模型按你的意愿行事有三种方法——而多数团队上来就选了最重的那一个。本文告诉你如何按正确顺序做选择。

#fine-tuning#rag#prompting

04-20 10:42·7 分钟

缩放定律：更大，但为什么

"把它做大"听起来像句口号，而不是一门科学。缩放定律正是把它变成科学的东西。这里讲清楚它们到底说了什么、又没说什么。

#scaling-laws#compute#training

04-17 16:38·7 分钟

不用数学公式讲清楚 Transformer 架构

Transformer 通常被画成一整面墙的方程式。把那些剥掉，剩下的只是一个优雅的想法：让每个词自己决定哪些词对它最重要。

#transformers#architecture#attention

04-15 10:54·7 分钟

预训练、微调与对齐

人们描述模型是怎么造出来的时候，常把这三个词混作一团。它们是各司其职的不同阶段。下面讲清楚每个阶段都在做什么。

#pretraining#fine-tuning#alignment

04-08 17:04·7 分钟

涌现能力：真实，还是海市蜃楼？

大模型似乎会突然「领悟」小模型所缺的技能。那究竟是真实的相变，还是我们衡量方式制造的把戏？诚实的答案是：两者都有。

#emergence#scaling#evaluation

04-03 08:35·7 分钟