welclaiAI·TREND·DIGEST
policy

接入电网的快车道:FERC 命令六家运营商为 AI 数据中心腾出空间

FERC 给六家电网运营商 30 至 60 天时间,改写拖慢 AI 数据中心接入电网的规则。但症结在于:它无法凭空变出新的发电能力。

2026-06-24 22:00 KST·6 分钟

最新

policy

SpaceX 变身云厂商:63 亿美元的 Reflection AI 算力交易

SpaceX 将把其 Colossus 2 站点的英伟达 GB300 算力出租给开放模型实验室 Reflection AI,金额最高达 63 亿美元——一家火箭公司就此变身算力供应商。

#compute#infrastructure#open-models
06-23 22:00·6 分钟
policy

华盛顿叫停前沿模型:Fable 5 出口管制对峙内幕

美国一项出口管制指令迫使 Anthropic 在全球范围暂停 Fable 5 和 Mythos 5——这是首次针对单一 AI 模型采取此类行动。

#policy#export-controls#anthropic
06-23 16:04·6 分钟
use-cases

AI 代码审查:它能抓到什么,又会漏掉什么

AI 审查员快速、不知疲倦,而且很容易接入到 pull request 中。本文讲清它能可靠抓到什么、会在哪里悄悄失手,以及如何用好它。

#code-review#engineering#quality
06-18 15:52·7 分钟
tutorials

负责任地发布一个 AI 功能:一份清单

一份面向 AI 功能的实用上线前清单——涵盖准确性、安全、隐私、透明度,以及那些保护用户的人为防线。

#responsibility#safety#privacy
06-17 10:05·7 分钟
tools

护栏:在 LLM 周围过滤输入与输出

光有模型并不是一个安全的产品。护栏就是那些输入与输出的过滤器,把 LLM 约束在你真正需要的边界之内。

#guardrails#safety#llm-ops
06-16 12:31·7 分钟
tools

面向 AI 的文档解析:PDF、表格,以及那些乱糟糟的剩余部分

在模型能对你的文档进行推理之前,必须有什么东西先把它们变成干净的文本。这个不起眼的步骤悄悄决定了下游的一切。

#document-parsing#pdf#data-extraction
06-16 11:01·7 分钟
models

嵌入对比生成:模型做的两件不同的事

嵌入和生成是两份不同的工作。搞清楚你的问题需要哪一个,是通往真正可用系统的最快路径。

#embeddings#generation#retrieval
06-15 11:41·7 分钟
policy

隐私与 LLM:什么离开了你的机器

当你向一个 LLM 输入内容时,那些文字究竟去了哪里——之后又会发生什么?一份关于数据踪迹的大白话指南。

#privacy#llms#data
06-14 17:56·7 分钟
use-cases

用 AI 从评论中挖掘客户洞察

成千上万条评论,被 AI 归纳成主题。潜力是真实的,它悄然误导你的方式也同样真实。这是诚实的版本。

#customer-insights#reviews#analytics
06-13 09:08·7 分钟
models

token 的成本:模型定价是怎么运作的

"模型账单以 token 计量,而非单词或请求。弄清 token 是什么、以及你为哪些 token 付费,是让成本保持可预测的方式。"

#tokens#pricing#cost-management
06-12 15:45·7 分钟
research

从第一性原理理解检索增强生成(RAG)

RAG 常被讲成一堆工具的堆叠。把那些剥掉,它就是一个简单的想法:让模型在回答之前先读到正确的材料。下面讲清楚它究竟如何运作。

#rag#retrieval#embeddings
06-12 14:40·7 分钟
tools

流式响应:它为何能改善体验,又是如何做到的

流式不会让模型变快——它让等待感觉更短。本文讲清这为何重要,以及把它构建出来要付出什么代价。

#streaming#ux#latency
06-11 15:30·7 分钟
policy

透明与披露:告诉人们这是 AI

什么时候该告诉人们 AI 参与其中?一份关于披露规范的通俗指南——为什么它重要,以及如何判断什么才算诚实。

#disclosure#transparency#ethics
06-10 12:25·7 分钟
tools

为你的项目选择嵌入模型

挑选嵌入模型,与其说关乎排行榜,不如说关乎契合。这是真正决定检索能否在你的数据和预算下奏效的东西。

#embeddings#retrieval#rag
06-09 12:22·7 分钟
policy

AI 权力的集中:谁掌控着模型

强大的 AI 造价高昂,这把掌控权推向少数几家玩家。本文用平实语言讲清集中为何发生,以及什么在与之制衡。

#power#concentration#open-source
06-09 08:36·7 分钟
research

为什么上下文长度难以扩展

更长的上下文窗口听上去只是个简单的旋钮。其底层却在对抗一种增长快过文本本身的成本——以及一种被摊得越来越薄的注意力。

#context-window#attention#scaling
06-08 18:48·7 分钟
tools

选择 AI 编程助手:一套冷静的对比框架

AI 编程助手的演示个个都很漂亮。这是一套框架,帮你按那些真正影响日常工作的东西来评判它们。

#ai-coding#developer-tools#code-assistants
06-07 19:40·7 分钟
research

灾难性遗忘与持续学习

教神经网络一些新东西,它往往就忘了原先会的。正是这个顽固问题,让模型成批学习,而非以流的方式学习。

#continual-learning#forgetting#training
06-06 13:46·7 分钟
research

思维链:为什么推理步骤能起作用

让模型"一步一步地思考",它在难题上的表现会明显变好。仔细想想,这其实很奇怪。本文解释它为什么有效。

#chain-of-thought#reasoning#prompting
06-05 12:11·7 分钟
tutorials

像测试代码一样测试你的提示词

提示词是发布给用户的代码。就该这样对待它——配上测试用例、一条基线,以及每次改动前的回归检查。

#evaluation#testing#prompting
06-05 08:33·7 分钟
policy

数据授权:AI 产品背后真正的约束

许多 AI 产品最难的部分并不是模型,而是你究竟有没有权使用这些数据。用通俗的语言,带你认识这条悄悄决定什么能被做出来的约束。

#licensing#data#compliance
06-04 18:27·7 分钟
policy

给 AI 内容加水印与检测

能否可靠地标记或检测 AI 生成内容?本文清晰剖析水印与检测的工作原理,以及为什么两者都不是万灵药。

#watermarking#detection#provenance
06-03 15:52·7 分钟
models

上下文窗口详解:token、注意力,以及长上下文在哪里失灵

更大的上下文窗口并不等同于更好的记忆。这是上下文窗口究竟是什么、长输入为何会劣化,以及如何围绕它来设计。

#context-window#tokens#attention
06-02 10:06·7 分钟
models

“前沿模型”到底意味着什么——以及为什么基准测试会误导你

“前沿模型”是一个会移动的标签,不是一项规格。本文谈它真正指向什么、排行榜分数为何很少告诉你真正需要知道的东西,以及如何依然做出好的选择。

#frontier-models#benchmarks#evaluation
06-01 19:11·7 分钟
models

大语言模型是如何训练出来的,用大白话讲

训练一个语言模型是分阶段进行的,而不是一步登天的魔法。本文用大白话讲清楚每个阶段做什么,以及顺序为何重要。

#training#pretraining#fine-tuning
06-01 12:06·7 分钟
tutorials

那些依然重要的提示工程基本功

提示词的潮流来来去去。一小套基本功却能跨越模型与版本持续奏效。下面就是它们,连同每一条背后的道理。

#prompting#fundamentals#context
05-31 13:25·7 分钟
policy

解读开放权重许可证:MIT、Apache 与灰色地带

"开放"的模型权重往往附带截然不同的条件。一份用大白话教你在动手开发前先读懂许可证的指南。

#open-weights#licenses#open-source
05-30 09:54·7 分钟
models

开放权重模型与开源模型:真正的区别

"这两个术语常被当作同义词,但它们并不是。你能下载、检视、复用的东西差别极大——而这会影响你被允许做什么。"

#open-weight#open-source#licensing
05-29 16:50·7 分钟
tools

现代 AI 应用技术栈,端到端全览

一张清晰的地图,画出构成一个真实 AI 应用的各层——模型、编排、检索、评估,以及那把它们黏在一起、毫不起眼的胶水。

#ai-stack#architecture#llm-apps
05-29 09:14·7 分钟
tools

在调用 API 与自托管 LLM 之间抉择

调用托管 API,还是自己运行模型?老实说,答案取决于用量、控制权,以及你能消化多少运维工作。

#llm-api#self-hosting#infrastructure
05-28 18:01·7 分钟
use-cases

用 LLM 做翻译:它在哪里出彩,又在哪里翻车

语言模型翻译得足够流畅,流畅到让人觉得这个问题已经解决了。本文谈它真正出彩之处、它悄无声息翻车之处,以及流畅为何会把错误藏起来。

#translation#localization#language
05-27 13:55·7 分钟
policy

AI 与你的数据:用你的输入来训练意味着什么

当一项服务说它可能用你的输入来训练时,这对你的文字、文件和想法究竟意味着什么?一份关于这桩交易的大白话指南。

#data#privacy#training
05-26 17:18·7 分钟
models

为什么模型会有知识截止

模型的知识停在某个日期,是因为它的知识在训练时就被冻结了。本文讲清楚这为何发生,以及工具如何绕过它。

#knowledge-cutoff#training-data#retrieval
05-25 16:26·7 分钟
research

RLHF 究竟做了什么

RLHF 是把一个原始文本预测器变成你能对话之物的那一步。本文谈它究竟改变了什么——以及同样重要的,它没有改变什么。

#rlhf#alignment#fine-tuning
05-25 15:07·7 分钟
use-cases

用 AI 做内容审核:艰难的取舍

AI 审核能扩展到人力永远无法企及的体量——但你每拧动一个旋钮,都是用一种伤害换另一种。本文讲清那些你无法逃避的取舍。

#moderation#trust-and-safety#operations
05-24 15:19·7 分钟
use-cases

用 AI 做个性化,而不让人觉得被冒犯

AI 让个性化既廉价又精准——这恰恰是它可能让人觉得被侵犯的原因。本文讲清如何做到相关,又不越界。

#personalization#privacy#product
05-23 19:23·7 分钟
models

多模态模型:"它能看见"究竟意味着什么

当一个模型"看见"一张图像时,它并不是在像你那样看。本文讲清多模态模型实际如何运作、它能带来什么,以及它在哪里悄悄失手。

#multimodal#vision#image-understanding
05-22 12:04·7 分钟
research

蒸馏:用大模型教出小模型

知识蒸馏训练一个小模型去模仿一个大模型。诀窍不在于复制答案,而在于复制大模型不确定的方式。

#distillation#compression#training
05-21 13:52·7 分钟
tools

结构化输出:从模型拿到可靠的 JSON

当你的代码需要的是数据而非散文时,模型必须返回干净、可解析的结构。本文讲如何拿到可靠的 JSON,而不是只能靠祈祷。

#structured-output#json#schema
05-21 08:19·7 分钟
use-cases

真正管用的文档问答:模式与陷阱

对着自己的文档提问,是最有用的 AI 演示,也是最容易在不知不觉中做错的一个。这里是那些能在真实使用中存活下来的模式。

#document-qa#rag#retrieval
05-20 19:40·7 分钟
tools

抛开炒作看向量数据库:它到底做什么,以及你何时真正需要它

向量数据库一夜之间成了流行词。本文谈它到底做什么、它解决什么问题,以及那些诚实的信号——告诉你究竟需不需要一个。

#vector-database#embeddings#semantic-search
05-19 14:20·7 分钟
tools

LLM 应用的可观测性:记录真正要紧的东西

当 LLM 应用出岔子时,"它给了个糟糕的答案"并不是一个可调试的事实。本文讲清该记录什么,好让你真能查出原因。

#observability#llmops#logging
05-18 13:16·7 分钟
use-cases

面向非工程师的 AI 编程:潜力与边界

AI 让非工程师能构建他们绝无可能手写的软件。本文讲清这真正释放了什么、它在哪里悄然崩坏,以及如何保持安全。

#coding#no-code#productivity
05-17 18:08·7 分钟
policy

AI 与就业:什么能说、什么不能说

关于 AI 与就业的诚实答案,比新闻标题要谨慎得多。一份通俗指南,讲清证据支持什么、又不支持什么。

#jobs#labor#automation
05-17 17:53·7 分钟
tools

提示词管理:让提示词不再埋在代码里

硬编码的提示词在你只有一两个时感觉良好,直到散落在文件各处的有了十几个。下面教你把提示词当作受管理的资产,而非埋藏的字符串。

#prompts#prompt-engineering#llmops
05-16 12:40·7 分钟
use-cases

会议转录与摘要:诚实版

自动会议纪要是人们真正想要的 AI 功能。本文讲清什么管用、什么会悄悄崩坏,以及为什么摘要才是最简单的那部分。

#meetings#transcription#productivity
05-15 18:59·7 分钟
models

token 与分词:为什么模型看文本的方式很奇怪

模型不读字母也不读词语——它们读的是 token。弄懂这一个事实,就能解释拼写出错、奇怪的成本,以及上下文限制为何这样运作。

#tokens#tokenization#context-window
05-14 16:37·7 分钟
tools

在本地运行 LLM:单台笔记本的实用入门

如今,你可以在一台笔记本上运行一个能干的开源权重模型。这里讲清楚真正决定它能否跑起来的因素——内存、量化、工具链——以及对每一项的诚实预期。

#local-llm#quantization#on-device
05-14 09:12·7 分钟
tutorials

为 AI 回答添加引用

引用能把一个无法验证的回答变成可核查的回答。本文讲解如何让模型引用来源,并且诚实地引用。

#citations#grounding#rag
05-13 17:25·7 分钟
tools

函数调用与工具:把模型连接到行动

函数调用让模型能够决定使用你的代码——却从不真正运行它。本文讲清楚到底发生了什么,以及它会在哪里出错。

#function-calling#tools#agents
05-12 12:05·7 分钟
models

开放对封闭模型:真实项目里该如何抉择

开放权重还是托管 API?正确答案取决于控制、成本和风险——而非立场。这是一套能经受住生产环境检验的框架。

#open-weights#model-selection#deployment
05-11 14:31·7 分钟
use-cases

大规模地分类与路由文本

按类别对文本进行分拣和路由,是 AI 最可靠的工作之一。本文讲清是什么让它在规模上奏效,以及在边缘处潜伏的那些失败。

#classification#routing#automation
05-10 15:45·7 分钟
policy

AI 产出归谁所有?给创作者的版权基础

当模型替你写好草稿、画好图,成果归谁所有?这是一张用大白话画出的地图,标出那些真正决定答案的问题。

#copyright#ai-output#creators
05-10 13:33·7 分钟
tutorials

为任务选择合适的模型规模

越大并不总是越好。这是一套实用方法,帮你挑出与任务、预算和你能接受的延迟相匹配的模型规模。

#models#cost#latency
05-09 15:05·7 分钟
use-cases

用 LLM 做数据抽取:把杂乱文本变成表格

把非结构化文本变成干净的行与列,正是 LLM 安静发光之处——前提是你定义好 schema、校验每个字段、并为杂乱的输入做好打算。

#data-extraction#structured-output#validation
05-08 10:46·7 分钟
tutorials

搭建一个反馈闭环来改进回答

一个从不从错误中学习的 AI 功能会原地踏步。如何捕获信号、把它变成示例,并闭合那个让回答变好的闭环。

#feedback#evaluation#iteration
05-07 11:56·7 分钟
research

超越基准的评估:人类与模型裁判

基准测量的是易于打分的东西。对于开放式的工作,你需要判断——来自人,或来自代替人的模型。两者都可能误导你。

#evaluation#llm-as-judge#benchmarks
05-06 16:53·7 分钟
research

模型是如何被评估的:基准测试,以及它们为何会撒谎

基准分数看起来像测量结果,但它们其实是论证。本文讲清楚模型评估实际如何运作,以及一个高分为何仍可能误导你。

#benchmarks#evaluation#leaderboards
05-06 16:14·7 分钟
research

分词器,以及它为何对各种语言至关重要

语言模型从不见到词语。它见到的是 token。文本如何被切成 token,悄悄决定了跨语言的成本、速度与公平。

#tokenization#languages#nlp
05-05 08:17·7 分钟
policy

诚实地谈 AI 的环境成本

AI 消耗真实的能源与水,但这个故事比标题更具体。一份脚踏实地的审视:成本究竟藏在何处,又取决于什么。

#energy#sustainability#compute
05-04 09:36·7 分钟
tutorials

减少幻觉:一份实用清单

当任务诱导模型编造时,它就会编造事实。这份清单列出真正能减少幻觉的做法,同时不假装你能彻底消除它们。

#hallucinations#reliability#grounding
05-03 10:46·7 分钟
use-cases

教育中的 AI:当导师,而非神谕

AI 可以是一位耐心、随时在线的导师——也可以是一台代答作业、悄悄侵蚀学习的神谕。区别在于你怎么用它。

#education#learning#tutoring
05-03 09:44·7 分钟
tools

缓存 LLM 响应:何时与如何

缓存能大幅削减 LLM 的成本与延迟——也可能悄悄端出陈旧、错误的答案。本文教你如何分辨,并安全地做好它。

#caching#performance#cost-optimization
05-02 16:58·7 分钟
tutorials

衡量质量:如何搭一套基础评测

"感觉"无法规模化。一套小而诚实的评测,能把"这好像更好了"变成一个你可以信赖的数字——本文教你从零搭一套。

#evaluation#testing#quality
05-01 11:01·7 分钟
research

通俗讲讲注意力机制

注意力听起来很技术,但这个想法你每次阅读时都在用。本文不带数学,讲清它在语言模型内部到底是什么意思。

#attention#transformers#context
04-30 11:26·7 分钟
tutorials

为检索把文档切好块

检索的好坏取决于它的块。这是如何切分文档,让正确的段落能完整、带着上下文地被取回。

#chunking#retrieval#rag
04-29 19:38·7 分钟
models

推理模型:“思考”token到底做了什么

"推理模型会先把问题想清楚再作答。那段隐藏的思考过程要花时间、耗token——而且只有在合适的任务上才划算。"

#reasoning-models#thinking-tokens#inference
04-29 14:40·7 分钟
use-cases

用 AI 写作:它在哪里帮你,又在哪里害你

AI 是一个快速的初稿手,也是一个危险的终稿编辑。本文讲清它在哪里提升你的写作、在哪里悄悄拉低它,以及如何分辨两者。

#writing#content#editing
04-28 11:39·7 分钟
use-cases

用 AI 写营销文案:真正奏效的工作流程

AI 几秒钟就能起草营销文案,而这恰恰是为什么其中那么多都过目即忘。本文给出把速度变成奏效文案的工作流程。

#marketing#copywriting#content
04-27 17:20·7 分钟
tutorials

在 UI 中流式传输并渲染模型输出

为什么流式传输让 AI 功能感觉飞快,以及如何在 UI 中逐 token 渲染输出,而不出现闪烁、断裂的标记或布局混乱。

#streaming#ui#latency
04-26 10:23·7 分钟
tutorials

搭建一条简单的 RAG 流水线:概念走查

把检索增强生成一段一段地搭起来。没有魔法,不绑定具体技术栈——只讲流水线的形态和那些真正要紧的决策。

#rag#retrieval#embeddings
04-25 19:17·7 分钟
tutorials

成本控制入门:让一个 AI 功能保持可负担

AI 功能按 token 计费,而小习惯会复利成大账单。这里是几个经久的杠杆,帮你在不掏空质量的前提下把成本控制住。

#cost#tokens#caching
04-25 14:40·7 分钟
tools

评估 AI 工具:一份能挺过演示的清单

AI 工具被设计成在演示里令人眼花缭乱。这份清单帮你用那些经久不变的问题来评判它们——它们决定了工具能否在真实使用中站住脚。

#ai-tools#evaluation#procurement
04-24 10:38·7 分钟
research

无需恐慌地理解幻觉

一个会编造内容的语言模型并没有出故障——它正是在做自己被造出来要做的事。本文讲清楚幻觉为何发生,以及如何驾驭它。

#hallucination#grounding#reliability
04-23 18:05·7 分钟
research

合成数据:用模型的输出来训练模型

当真实数据告急时,模型可以生成自己的训练数据。这很强大,有点循环,而且如果忘了它从何而来就很危险。

#synthetic-data#training#data
04-22 11:19·7 分钟
models

模型的“参数”到底是什么

“数十亿参数”被人像念马力一样挂在嘴边。本文谈参数究竟是什么、它的数量为何重要,以及为什么更大并不自动意味着更好。

#parameters#model-size#weights
04-21 18:59·7 分钟
tutorials

优雅地处理错误与超时

模型调用会失败、会卡住、会被限流。一份关于重试、超时、降级和故障安全行为的实用指南,让你的 AI 功能保持可靠。

#reliability#errors#timeouts
04-21 12:49·7 分钟
research

微调、RAG 还是提示词:一份决策指南

让模型按你的意愿行事有三种方法——而多数团队上来就选了最重的那一个。本文告诉你如何按正确顺序做选择。

#fine-tuning#rag#prompting
04-20 10:42·7 分钟
policy

不带噱头地讲清 AI 中的偏见

AI 中的偏见既不是神话,也不是机器的道德缺陷。它是这些系统学习方式可预料的结果。这里是冷静的版本。

#bias#fairness#ethics
04-19 16:11·7 分钟
tools

自建还是采购:何时该用 AI 平台

自己拼装一套 AI 技术栈,还是采用一个把它们打包好的平台?答案取决于你真正的优势在哪里——以及不在哪里。

#build-vs-buy#ai-platform#strategy
04-18 16:44·7 分钟
policy

当 AI 出错时的责任归属

当 AI 系统造成损害时,谁该负责?在没有单一显见过错方的情况下,本文用平实语言梳理责任是如何被推断的。

#liability#accountability#governance
04-18 16:42·7 分钟
research

缩放定律:更大,但为什么

"把它做大"听起来像句口号,而不是一门科学。缩放定律正是把它变成科学的东西。这里讲清楚它们到底说了什么、又没说什么。

#scaling-laws#compute#training
04-17 16:38·7 分钟
policy

推理的经济学:为什么「便宜的 AI」加起来还是不便宜

单次 AI 调用看起来几乎免费。那为什么 AI 账单会膨胀?用通俗的语言,带你认识那把分分钱变成真金白银的经济学。

#inference#cost#economics
04-16 14:07·7 分钟
research

不用数学公式讲清楚 Transformer 架构

Transformer 通常被画成一整面墙的方程式。把那些剥掉,剩下的只是一个优雅的想法:让每个词自己决定哪些词对它最重要。

#transformers#architecture#attention
04-15 10:54·7 分钟
tutorials

写一条真正管用的系统提示词

系统提示词在对话开始之前就立好了规则。本文教你如何写出一条能扛住各种真实输入、而不只是在演示里好看的系统提示词。

#system-prompt#prompting#reliability
04-14 16:30·7 分钟
tutorials

你的第一个 AI 智能体:一个极简而诚实的构建

智能体就是一个置于循环中、能调用工具的模型。先构建最小而诚实的版本,理解它为何有效,并在添加雄心之前弄清它会在哪里出错。

#agents#tool-use#loops
04-14 15:51·7 分钟
use-cases

AI 智能体在工作中:真实任务与演示秀场

智能体的演示令人目眩,部署却让人清醒。本文讲清在工作中真正奏效的是什么、什么会崩塌,以及如何分辨二者。

#agents#automation#tools
04-13 17:23·7 分钟
models

量化与蒸馏:把模型变小

"两种把模型缩小的不同方式——一种改变它的数字,另一种训练一个更小的副本。下面讲清楚各自如何运作、以及何时该用哪一个。"

#quantization#distillation#model-compression
04-12 16:37·7 分钟
models

专家混合模型,简单讲清

专家混合让一个模型既能巨大、又能廉价地运行,办法是每次输入只用上自身的一小片。本文把这个想法讲清,以及它为何重要。

#mixture-of-experts#architecture#efficiency
04-11 13:35·7 分钟
use-cases

公司内部的 AI 搜索:现实版本

提个问题,从你所有的内部文档里得到答案。演示像魔法。这里讲的是,一旦真实的数据和真实的权限到来,是什么让它变难。

#enterprise-search#rag#knowledge-management
04-10 17:44·7 分钟
tools

速率限制与重试:构建有韧性的 LLM 调用

托管 LLM 会以寻常的方式失败——限制、超时、瞬时错误。一点点重试纪律,就能把一个脆弱的集成变成一个可靠的。

#rate-limits#retries#reliability
04-10 08:22·7 分钟
policy

AI 供应商锁定

依赖单一 AI 供应商在你想离开之前都很方便。本文用通俗语言讲清锁定藏在哪里,以及如何保留自己的选择空间。

#vendor-lock-in#procurement#strategy
04-09 19:16·7 分钟
research

预训练、微调与对齐

人们描述模型是怎么造出来的时候,常把这三个词混作一团。它们是各司其职的不同阶段。下面讲清楚每个阶段都在做什么。

#pretraining#fine-tuning#alignment
04-08 17:04·7 分钟
use-cases

用 AI 做研究与文献综述

AI 能把数周的文献综述压缩到几小时——也会悄悄编造出根本不存在的引文。本文讲清如何在拿到速度的同时避开错误。

#research#literature-review#academia
04-07 15:14·7 分钟
policy

安全与能力:核心张力

让一个 AI 系统更有能力,和让它更安全,常常朝不同方向拉扯。本文用大白话审视这股塑造了整个领域的张力。

#safety#capability#governance
04-07 13:58·7 分钟
models

温度、top-p 与采样:掌控模型输出

温度和 top-p 决定了模型如何挑选下一个词。弄懂它们各自真正在做什么,你就能有意识地把输出从刻板调到富有创意。

#sampling#temperature#top-p
04-06 09:43·7 分钟
tutorials

少样本提示:一份实用指南

示例比指令更快地教会模型。这里讲的是如何挑选、排序和格式化它们,让少样本提示可靠地见效。

#few-shot#prompting#examples
04-05 15:34·7 分钟
models

为什么同一条提示词跑两次结果会不同

同一条提示词发两次,你常会得到两个不同的答案。这是设计使然,不是 bug——而懂得为什么,能告诉你何时该去控制它。

#sampling#temperature#determinism
04-04 15:31·7 分钟
policy

AI 监管:大致的轮廓

AI 监管近看像一团混乱,却有一个可辨认的轮廓。本文是一张关于那些反复出现的路径、张力与观念的经久地图。

#regulation#governance#policy
04-03 15:09·7 分钟
research

涌现能力:真实,还是海市蜃楼?

大模型似乎会突然「领悟」小模型所缺的技能。那究竟是真实的相变,还是我们衡量方式制造的把戏?诚实的答案是:两者都有。

#emergence#scaling#evaluation
04-03 08:35·7 分钟
use-cases

把 LLM 用于客户支持:最先崩的是什么

支持聊天机器人是最容易做出来的 AI 演示,却是最难真正运转好的系统之一。本文讲清真实部署在哪里崩溃——以及能存活下来的系统靠的是什么。

#customer-support#deployment#rag
04-02 12:31·7 分钟
models

小模型,大用场:端侧何时胜过云端

最大的模型很少是最合适的那一个。本文讲清小型端侧模型为何能拿下一整类工作,以及如何判断你的任务是否属于这一类。

#small-models#on-device#edge-ai
04-01 12:28·7 分钟