接入电网的快车道：FERC 命令六家运营商为 AI 数据中心腾出空间

#compute#infrastructure#open-models

SpaceX 变身云厂商：63 亿美元的 Reflection AI 算力交易

SpaceX 将把其 Colossus 2 站点的英伟达 GB300 算力出租给开放模型实验室 Reflection AI，金额最高达 63 亿美元——一家火箭公司就此变身算力供应商。

06-23 22:00·6 分钟

#policy#export-controls#anthropic

华盛顿叫停前沿模型:Fable 5 出口管制对峙内幕

美国一项出口管制指令迫使 Anthropic 在全球范围暂停 Fable 5 和 Mythos 5——这是首次针对单一 AI 模型采取此类行动。

06-23 16:04·6 分钟

#code-review#engineering#quality

AI 代码审查：它能抓到什么，又会漏掉什么

AI 审查员快速、不知疲倦，而且很容易接入到 pull request 中。本文讲清它能可靠抓到什么、会在哪里悄悄失手，以及如何用好它。

06-18 15:52·7 分钟

#responsibility#safety#privacy

负责任地发布一个 AI 功能：一份清单

一份面向 AI 功能的实用上线前清单——涵盖准确性、安全、隐私、透明度，以及那些保护用户的人为防线。

06-17 10:05·7 分钟

#guardrails#safety#llm-ops

护栏：在 LLM 周围过滤输入与输出

光有模型并不是一个安全的产品。护栏就是那些输入与输出的过滤器，把 LLM 约束在你真正需要的边界之内。

06-16 12:31·7 分钟

#document-parsing#pdf#data-extraction

面向 AI 的文档解析：PDF、表格，以及那些乱糟糟的剩余部分

在模型能对你的文档进行推理之前，必须有什么东西先把它们变成干净的文本。这个不起眼的步骤悄悄决定了下游的一切。

06-16 11:01·7 分钟

#embeddings#generation#retrieval

嵌入对比生成：模型做的两件不同的事

嵌入和生成是两份不同的工作。搞清楚你的问题需要哪一个，是通往真正可用系统的最快路径。

06-15 11:41·7 分钟

隐私与 LLM：什么离开了你的机器

当你向一个 LLM 输入内容时，那些文字究竟去了哪里——之后又会发生什么？一份关于数据踪迹的大白话指南。

#privacy#llms#data

06-14 17:56·7 分钟

#customer-insights#reviews#analytics

用 AI 从评论中挖掘客户洞察

成千上万条评论，被 AI 归纳成主题。潜力是真实的，它悄然误导你的方式也同样真实。这是诚实的版本。

06-13 09:08·7 分钟

#tokens#pricing#cost-management

token 的成本：模型定价是怎么运作的

"模型账单以 token 计量，而非单词或请求。弄清 token 是什么、以及你为哪些 token 付费，是让成本保持可预测的方式。"

06-12 15:45·7 分钟

#rag#retrieval#embeddings

从第一性原理理解检索增强生成（RAG）

RAG 常被讲成一堆工具的堆叠。把那些剥掉，它就是一个简单的想法：让模型在回答之前先读到正确的材料。下面讲清楚它究竟如何运作。

06-12 14:40·7 分钟

流式响应:它为何能改善体验,又是如何做到的

流式不会让模型变快——它让等待感觉更短。本文讲清这为何重要,以及把它构建出来要付出什么代价。

#streaming#ux#latency

06-11 15:30·7 分钟

#disclosure#transparency#ethics

透明与披露：告诉人们这是 AI

什么时候该告诉人们 AI 参与其中？一份关于披露规范的通俗指南——为什么它重要，以及如何判断什么才算诚实。

06-10 12:25·7 分钟

#embeddings#retrieval#rag

为你的项目选择嵌入模型

挑选嵌入模型，与其说关乎排行榜，不如说关乎契合。这是真正决定检索能否在你的数据和预算下奏效的东西。

06-09 12:22·7 分钟

#power#concentration#open-source

AI 权力的集中：谁掌控着模型

强大的 AI 造价高昂，这把掌控权推向少数几家玩家。本文用平实语言讲清集中为何发生，以及什么在与之制衡。

06-09 08:36·7 分钟

#context-window#attention#scaling

为什么上下文长度难以扩展

更长的上下文窗口听上去只是个简单的旋钮。其底层却在对抗一种增长快过文本本身的成本——以及一种被摊得越来越薄的注意力。

06-08 18:48·7 分钟

#ai-coding#developer-tools#code-assistants

选择 AI 编程助手：一套冷静的对比框架

AI 编程助手的演示个个都很漂亮。这是一套框架，帮你按那些真正影响日常工作的东西来评判它们。

06-07 19:40·7 分钟

#continual-learning#forgetting#training

灾难性遗忘与持续学习

教神经网络一些新东西，它往往就忘了原先会的。正是这个顽固问题，让模型成批学习，而非以流的方式学习。

06-06 13:46·7 分钟

#chain-of-thought#reasoning#prompting

思维链：为什么推理步骤能起作用

让模型"一步一步地思考"，它在难题上的表现会明显变好。仔细想想，这其实很奇怪。本文解释它为什么有效。

06-05 12:11·7 分钟

#evaluation#testing#prompting

像测试代码一样测试你的提示词

提示词是发布给用户的代码。就该这样对待它——配上测试用例、一条基线,以及每次改动前的回归检查。

06-05 08:33·7 分钟

#licensing#data#compliance

数据授权：AI 产品背后真正的约束

许多 AI 产品最难的部分并不是模型，而是你究竟有没有权使用这些数据。用通俗的语言，带你认识这条悄悄决定什么能被做出来的约束。

06-04 18:27·7 分钟

#watermarking#detection#provenance

给 AI 内容加水印与检测

能否可靠地标记或检测 AI 生成内容？本文清晰剖析水印与检测的工作原理，以及为什么两者都不是万灵药。

06-03 15:52·7 分钟

#context-window#tokens#attention

上下文窗口详解：token、注意力，以及长上下文在哪里失灵

更大的上下文窗口并不等同于更好的记忆。这是上下文窗口究竟是什么、长输入为何会劣化，以及如何围绕它来设计。

06-02 10:06·7 分钟

#frontier-models#benchmarks#evaluation

“前沿模型”到底意味着什么——以及为什么基准测试会误导你

“前沿模型”是一个会移动的标签，不是一项规格。本文谈它真正指向什么、排行榜分数为何很少告诉你真正需要知道的东西，以及如何依然做出好的选择。

06-01 19:11·7 分钟

#training#pretraining#fine-tuning

大语言模型是如何训练出来的，用大白话讲

训练一个语言模型是分阶段进行的，而不是一步登天的魔法。本文用大白话讲清楚每个阶段做什么，以及顺序为何重要。

06-01 12:06·7 分钟

#prompting#fundamentals#context

那些依然重要的提示工程基本功

提示词的潮流来来去去。一小套基本功却能跨越模型与版本持续奏效。下面就是它们，连同每一条背后的道理。

05-31 13:25·7 分钟

#open-weights#licenses#open-source

解读开放权重许可证：MIT、Apache 与灰色地带

"开放"的模型权重往往附带截然不同的条件。一份用大白话教你在动手开发前先读懂许可证的指南。

05-30 09:54·7 分钟

#open-weight#open-source#licensing

开放权重模型与开源模型：真正的区别

"这两个术语常被当作同义词，但它们并不是。你能下载、检视、复用的东西差别极大——而这会影响你被允许做什么。"

05-29 16:50·7 分钟

#ai-stack#architecture#llm-apps

现代 AI 应用技术栈，端到端全览

一张清晰的地图，画出构成一个真实 AI 应用的各层——模型、编排、检索、评估，以及那把它们黏在一起、毫不起眼的胶水。

05-29 09:14·7 分钟

#llm-api#self-hosting#infrastructure

在调用 API 与自托管 LLM 之间抉择

调用托管 API，还是自己运行模型？老实说，答案取决于用量、控制权，以及你能消化多少运维工作。

05-28 18:01·7 分钟

#translation#localization#language

用 LLM 做翻译：它在哪里出彩，又在哪里翻车

语言模型翻译得足够流畅，流畅到让人觉得这个问题已经解决了。本文谈它真正出彩之处、它悄无声息翻车之处，以及流畅为何会把错误藏起来。

05-27 13:55·7 分钟

AI 与你的数据:用你的输入来训练意味着什么

当一项服务说它可能用你的输入来训练时,这对你的文字、文件和想法究竟意味着什么?一份关于这桩交易的大白话指南。

#data#privacy#training

05-26 17:18·7 分钟

#knowledge-cutoff#training-data#retrieval

为什么模型会有知识截止

模型的知识停在某个日期，是因为它的知识在训练时就被冻结了。本文讲清楚这为何发生，以及工具如何绕过它。

05-25 16:26·7 分钟

#rlhf#alignment#fine-tuning

RLHF 究竟做了什么

RLHF 是把一个原始文本预测器变成你能对话之物的那一步。本文谈它究竟改变了什么——以及同样重要的，它没有改变什么。

05-25 15:07·7 分钟

#moderation#trust-and-safety#operations

用 AI 做内容审核：艰难的取舍

AI 审核能扩展到人力永远无法企及的体量——但你每拧动一个旋钮，都是用一种伤害换另一种。本文讲清那些你无法逃避的取舍。

05-24 15:19·7 分钟

#personalization#privacy#product

用 AI 做个性化，而不让人觉得被冒犯

AI 让个性化既廉价又精准——这恰恰是它可能让人觉得被侵犯的原因。本文讲清如何做到相关，又不越界。

05-23 19:23·7 分钟

#multimodal#vision#image-understanding

多模态模型："它能看见"究竟意味着什么

当一个模型"看见"一张图像时，它并不是在像你那样看。本文讲清多模态模型实际如何运作、它能带来什么，以及它在哪里悄悄失手。

05-22 12:04·7 分钟

#distillation#compression#training

蒸馏：用大模型教出小模型

知识蒸馏训练一个小模型去模仿一个大模型。诀窍不在于复制答案，而在于复制大模型不确定的方式。

05-21 13:52·7 分钟

#structured-output#json#schema

结构化输出:从模型拿到可靠的 JSON

当你的代码需要的是数据而非散文时,模型必须返回干净、可解析的结构。本文讲如何拿到可靠的 JSON,而不是只能靠祈祷。

05-21 08:19·7 分钟

#document-qa#rag#retrieval

真正管用的文档问答：模式与陷阱

对着自己的文档提问，是最有用的 AI 演示，也是最容易在不知不觉中做错的一个。这里是那些能在真实使用中存活下来的模式。

05-20 19:40·7 分钟

#vector-database#embeddings#semantic-search

抛开炒作看向量数据库：它到底做什么，以及你何时真正需要它

向量数据库一夜之间成了流行词。本文谈它到底做什么、它解决什么问题，以及那些诚实的信号——告诉你究竟需不需要一个。

05-19 14:20·7 分钟

#observability#llmops#logging

LLM 应用的可观测性：记录真正要紧的东西

当 LLM 应用出岔子时，"它给了个糟糕的答案"并不是一个可调试的事实。本文讲清该记录什么，好让你真能查出原因。

05-18 13:16·7 分钟

#coding#no-code#productivity

面向非工程师的 AI 编程：潜力与边界

AI 让非工程师能构建他们绝无可能手写的软件。本文讲清这真正释放了什么、它在哪里悄然崩坏，以及如何保持安全。

05-17 18:08·7 分钟

AI 与就业：什么能说、什么不能说

关于 AI 与就业的诚实答案，比新闻标题要谨慎得多。一份通俗指南，讲清证据支持什么、又不支持什么。

#jobs#labor#automation

05-17 17:53·7 分钟

#prompts#prompt-engineering#llmops

提示词管理：让提示词不再埋在代码里

硬编码的提示词在你只有一两个时感觉良好，直到散落在文件各处的有了十几个。下面教你把提示词当作受管理的资产，而非埋藏的字符串。

05-16 12:40·7 分钟

#meetings#transcription#productivity

会议转录与摘要：诚实版

自动会议纪要是人们真正想要的 AI 功能。本文讲清什么管用、什么会悄悄崩坏，以及为什么摘要才是最简单的那部分。

05-15 18:59·7 分钟

#tokens#tokenization#context-window

token 与分词:为什么模型看文本的方式很奇怪

模型不读字母也不读词语——它们读的是 token。弄懂这一个事实,就能解释拼写出错、奇怪的成本,以及上下文限制为何这样运作。

05-14 16:37·7 分钟

#local-llm#quantization#on-device

在本地运行 LLM：单台笔记本的实用入门

如今，你可以在一台笔记本上运行一个能干的开源权重模型。这里讲清楚真正决定它能否跑起来的因素——内存、量化、工具链——以及对每一项的诚实预期。

05-14 09:12·7 分钟

为 AI 回答添加引用

引用能把一个无法验证的回答变成可核查的回答。本文讲解如何让模型引用来源，并且诚实地引用。

#citations#grounding#rag

05-13 17:25·7 分钟

#function-calling#tools#agents

函数调用与工具：把模型连接到行动

函数调用让模型能够决定使用你的代码——却从不真正运行它。本文讲清楚到底发生了什么，以及它会在哪里出错。

05-12 12:05·7 分钟

#open-weights#model-selection#deployment

开放对封闭模型：真实项目里该如何抉择

开放权重还是托管 API？正确答案取决于控制、成本和风险——而非立场。这是一套能经受住生产环境检验的框架。

05-11 14:31·7 分钟

#classification#routing#automation

大规模地分类与路由文本

按类别对文本进行分拣和路由,是 AI 最可靠的工作之一。本文讲清是什么让它在规模上奏效,以及在边缘处潜伏的那些失败。

05-10 15:45·7 分钟

#copyright#ai-output#creators

AI 产出归谁所有？给创作者的版权基础

当模型替你写好草稿、画好图，成果归谁所有？这是一张用大白话画出的地图，标出那些真正决定答案的问题。

05-10 13:33·7 分钟

为任务选择合适的模型规模

越大并不总是越好。这是一套实用方法，帮你挑出与任务、预算和你能接受的延迟相匹配的模型规模。

#models#cost#latency

05-09 15:05·7 分钟

#data-extraction#structured-output#validation

用 LLM 做数据抽取：把杂乱文本变成表格

把非结构化文本变成干净的行与列，正是 LLM 安静发光之处——前提是你定义好 schema、校验每个字段、并为杂乱的输入做好打算。

05-08 10:46·7 分钟

#feedback#evaluation#iteration

搭建一个反馈闭环来改进回答

一个从不从错误中学习的 AI 功能会原地踏步。如何捕获信号、把它变成示例，并闭合那个让回答变好的闭环。

05-07 11:56·7 分钟

#evaluation#llm-as-judge#benchmarks

超越基准的评估：人类与模型裁判

基准测量的是易于打分的东西。对于开放式的工作，你需要判断——来自人，或来自代替人的模型。两者都可能误导你。

05-06 16:53·7 分钟

#benchmarks#evaluation#leaderboards

模型是如何被评估的：基准测试，以及它们为何会撒谎

基准分数看起来像测量结果，但它们其实是论证。本文讲清楚模型评估实际如何运作，以及一个高分为何仍可能误导你。

05-06 16:14·7 分钟

#tokenization#languages#nlp

分词器,以及它为何对各种语言至关重要

语言模型从不见到词语。它见到的是 token。文本如何被切成 token,悄悄决定了跨语言的成本、速度与公平。

05-05 08:17·7 分钟

#energy#sustainability#compute

诚实地谈 AI 的环境成本

AI 消耗真实的能源与水，但这个故事比标题更具体。一份脚踏实地的审视：成本究竟藏在何处，又取决于什么。

05-04 09:36·7 分钟

#hallucinations#reliability#grounding

减少幻觉：一份实用清单

当任务诱导模型编造时，它就会编造事实。这份清单列出真正能减少幻觉的做法，同时不假装你能彻底消除它们。

05-03 10:46·7 分钟

#education#learning#tutoring

教育中的 AI：当导师，而非神谕

AI 可以是一位耐心、随时在线的导师——也可以是一台代答作业、悄悄侵蚀学习的神谕。区别在于你怎么用它。

05-03 09:44·7 分钟

#caching#performance#cost-optimization

缓存 LLM 响应：何时与如何

缓存能大幅削减 LLM 的成本与延迟——也可能悄悄端出陈旧、错误的答案。本文教你如何分辨，并安全地做好它。

05-02 16:58·7 分钟

#evaluation#testing#quality

衡量质量：如何搭一套基础评测

"感觉"无法规模化。一套小而诚实的评测，能把"这好像更好了"变成一个你可以信赖的数字——本文教你从零搭一套。

05-01 11:01·7 分钟

#attention#transformers#context

通俗讲讲注意力机制

注意力听起来很技术，但这个想法你每次阅读时都在用。本文不带数学，讲清它在语言模型内部到底是什么意思。

04-30 11:26·7 分钟

为检索把文档切好块

检索的好坏取决于它的块。这是如何切分文档，让正确的段落能完整、带着上下文地被取回。

#chunking#retrieval#rag

04-29 19:38·7 分钟

#reasoning-models#thinking-tokens#inference

推理模型：“思考”token到底做了什么

"推理模型会先把问题想清楚再作答。那段隐藏的思考过程要花时间、耗token——而且只有在合适的任务上才划算。"

04-29 14:40·7 分钟

用 AI 写作：它在哪里帮你，又在哪里害你

AI 是一个快速的初稿手，也是一个危险的终稿编辑。本文讲清它在哪里提升你的写作、在哪里悄悄拉低它，以及如何分辨两者。

#writing#content#editing

04-28 11:39·7 分钟

#marketing#copywriting#content

用 AI 写营销文案：真正奏效的工作流程

AI 几秒钟就能起草营销文案，而这恰恰是为什么其中那么多都过目即忘。本文给出把速度变成奏效文案的工作流程。

04-27 17:20·7 分钟

在 UI 中流式传输并渲染模型输出

为什么流式传输让 AI 功能感觉飞快，以及如何在 UI 中逐 token 渲染输出，而不出现闪烁、断裂的标记或布局混乱。

#streaming#ui#latency

04-26 10:23·7 分钟

#rag#retrieval#embeddings

搭建一条简单的 RAG 流水线：概念走查

把检索增强生成一段一段地搭起来。没有魔法，不绑定具体技术栈——只讲流水线的形态和那些真正要紧的决策。

04-25 19:17·7 分钟

成本控制入门：让一个 AI 功能保持可负担

AI 功能按 token 计费，而小习惯会复利成大账单。这里是几个经久的杠杆，帮你在不掏空质量的前提下把成本控制住。

#cost#tokens#caching

04-25 14:40·7 分钟

#ai-tools#evaluation#procurement

评估 AI 工具：一份能挺过演示的清单

AI 工具被设计成在演示里令人眼花缭乱。这份清单帮你用那些经久不变的问题来评判它们——它们决定了工具能否在真实使用中站住脚。

04-24 10:38·7 分钟

#hallucination#grounding#reliability

无需恐慌地理解幻觉

一个会编造内容的语言模型并没有出故障——它正是在做自己被造出来要做的事。本文讲清楚幻觉为何发生，以及如何驾驭它。

04-23 18:05·7 分钟

#synthetic-data#training#data

合成数据:用模型的输出来训练模型

当真实数据告急时,模型可以生成自己的训练数据。这很强大,有点循环,而且如果忘了它从何而来就很危险。

04-22 11:19·7 分钟

#parameters#model-size#weights

模型的“参数”到底是什么

“数十亿参数”被人像念马力一样挂在嘴边。本文谈参数究竟是什么、它的数量为何重要，以及为什么更大并不自动意味着更好。

04-21 18:59·7 分钟

#reliability#errors#timeouts

优雅地处理错误与超时

模型调用会失败、会卡住、会被限流。一份关于重试、超时、降级和故障安全行为的实用指南，让你的 AI 功能保持可靠。

04-21 12:49·7 分钟

#fine-tuning#rag#prompting

微调、RAG 还是提示词：一份决策指南

让模型按你的意愿行事有三种方法——而多数团队上来就选了最重的那一个。本文告诉你如何按正确顺序做选择。

04-20 10:42·7 分钟

不带噱头地讲清 AI 中的偏见

AI 中的偏见既不是神话，也不是机器的道德缺陷。它是这些系统学习方式可预料的结果。这里是冷静的版本。

#bias#fairness#ethics

04-19 16:11·7 分钟

#build-vs-buy#ai-platform#strategy

自建还是采购：何时该用 AI 平台

自己拼装一套 AI 技术栈，还是采用一个把它们打包好的平台？答案取决于你真正的优势在哪里——以及不在哪里。

04-18 16:44·7 分钟

#liability#accountability#governance

当 AI 出错时的责任归属

当 AI 系统造成损害时，谁该负责？在没有单一显见过错方的情况下，本文用平实语言梳理责任是如何被推断的。

04-18 16:42·7 分钟

#scaling-laws#compute#training

缩放定律：更大，但为什么

"把它做大"听起来像句口号，而不是一门科学。缩放定律正是把它变成科学的东西。这里讲清楚它们到底说了什么、又没说什么。

04-17 16:38·7 分钟

#inference#cost#economics

推理的经济学：为什么「便宜的 AI」加起来还是不便宜

单次 AI 调用看起来几乎免费。那为什么 AI 账单会膨胀？用通俗的语言，带你认识那把分分钱变成真金白银的经济学。

04-16 14:07·7 分钟

#transformers#architecture#attention

不用数学公式讲清楚 Transformer 架构

Transformer 通常被画成一整面墙的方程式。把那些剥掉，剩下的只是一个优雅的想法：让每个词自己决定哪些词对它最重要。

04-15 10:54·7 分钟

#system-prompt#prompting#reliability

写一条真正管用的系统提示词

系统提示词在对话开始之前就立好了规则。本文教你如何写出一条能扛住各种真实输入、而不只是在演示里好看的系统提示词。

04-14 16:30·7 分钟

你的第一个 AI 智能体：一个极简而诚实的构建

智能体就是一个置于循环中、能调用工具的模型。先构建最小而诚实的版本，理解它为何有效，并在添加雄心之前弄清它会在哪里出错。

#agents#tool-use#loops

04-14 15:51·7 分钟

AI 智能体在工作中：真实任务与演示秀场

智能体的演示令人目眩，部署却让人清醒。本文讲清在工作中真正奏效的是什么、什么会崩塌，以及如何分辨二者。

#agents#automation#tools

04-13 17:23·7 分钟

#quantization#distillation#model-compression

量化与蒸馏：把模型变小

"两种把模型缩小的不同方式——一种改变它的数字，另一种训练一个更小的副本。下面讲清楚各自如何运作、以及何时该用哪一个。"

04-12 16:37·7 分钟

#mixture-of-experts#architecture#efficiency

专家混合模型，简单讲清

专家混合让一个模型既能巨大、又能廉价地运行，办法是每次输入只用上自身的一小片。本文把这个想法讲清，以及它为何重要。

04-11 13:35·7 分钟

#enterprise-search#rag#knowledge-management

公司内部的 AI 搜索：现实版本

提个问题，从你所有的内部文档里得到答案。演示像魔法。这里讲的是，一旦真实的数据和真实的权限到来，是什么让它变难。

04-10 17:44·7 分钟

#rate-limits#retries#reliability

速率限制与重试：构建有韧性的 LLM 调用

托管 LLM 会以寻常的方式失败——限制、超时、瞬时错误。一点点重试纪律，就能把一个脆弱的集成变成一个可靠的。

04-10 08:22·7 分钟

#vendor-lock-in#procurement#strategy

AI 供应商锁定

依赖单一 AI 供应商在你想离开之前都很方便。本文用通俗语言讲清锁定藏在哪里，以及如何保留自己的选择空间。

04-09 19:16·7 分钟

#pretraining#fine-tuning#alignment

预训练、微调与对齐

人们描述模型是怎么造出来的时候，常把这三个词混作一团。它们是各司其职的不同阶段。下面讲清楚每个阶段都在做什么。

04-08 17:04·7 分钟

#research#literature-review#academia

用 AI 做研究与文献综述

AI 能把数周的文献综述压缩到几小时——也会悄悄编造出根本不存在的引文。本文讲清如何在拿到速度的同时避开错误。

04-07 15:14·7 分钟

#safety#capability#governance

安全与能力：核心张力

让一个 AI 系统更有能力，和让它更安全，常常朝不同方向拉扯。本文用大白话审视这股塑造了整个领域的张力。

04-07 13:58·7 分钟

#sampling#temperature#top-p

温度、top-p 与采样：掌控模型输出

温度和 top-p 决定了模型如何挑选下一个词。弄懂它们各自真正在做什么，你就能有意识地把输出从刻板调到富有创意。

04-06 09:43·7 分钟

#few-shot#prompting#examples

少样本提示：一份实用指南

示例比指令更快地教会模型。这里讲的是如何挑选、排序和格式化它们，让少样本提示可靠地见效。

04-05 15:34·7 分钟

#sampling#temperature#determinism

为什么同一条提示词跑两次结果会不同

同一条提示词发两次，你常会得到两个不同的答案。这是设计使然，不是 bug——而懂得为什么，能告诉你何时该去控制它。

04-04 15:31·7 分钟

#regulation#governance#policy

AI 监管：大致的轮廓

AI 监管近看像一团混乱，却有一个可辨认的轮廓。本文是一张关于那些反复出现的路径、张力与观念的经久地图。

04-03 15:09·7 分钟

#emergence#scaling#evaluation

涌现能力：真实，还是海市蜃楼？

大模型似乎会突然「领悟」小模型所缺的技能。那究竟是真实的相变，还是我们衡量方式制造的把戏？诚实的答案是：两者都有。

04-03 08:35·7 分钟

#customer-support#deployment#rag

把 LLM 用于客户支持：最先崩的是什么

支持聊天机器人是最容易做出来的 AI 演示，却是最难真正运转好的系统之一。本文讲清真实部署在哪里崩溃——以及能存活下来的系统靠的是什么。

04-02 12:31·7 分钟