温度与随机性：为什么同一个问题会有不同答案？

核心问题

为什么同一个问题问 AI 两次，答案可能不完全一样？为什么有时它很稳定，有时又突然给出很发散的表达？这和生成过程中的随机性有关，其中最常见的控制参数就是 temperature，也就是“温度”。

温度不是让模型变聪明或变笨的按钮，而是影响它在候选答案中选择得更保守还是更发散。

先建立直觉

想象你在点奶茶。低温模式像你每次都点最熟悉的招牌款，稳定、可预期、不容易踩雷。高温模式像你愿意尝试新品、隐藏菜单和奇怪搭配，可能有惊喜，也可能不好喝。

温度旋钮改变候选 token 概率分布尖锐或发散的示意图 — 低温让输出更稳定，高温让选择更分散，答案也更容易出现变化。

模型生成时也会面对候选 token。某些候选非常符合上下文，概率高；某些候选也说得通，但更少见；还有一些候选很跳跃。温度越低，模型越倾向于选高概率候选；温度越高，低概率候选获得更多机会。

概念拆解

模型每一步生成时，并不是只看到一个唯一答案，而是得到一组候选 token 的概率分布。比如一句话后面，“回去拿伞”概率很高，“冲进雨里”概率较低，“开始跳舞”概率更低。

低温会让概率分布更尖，最高概率选项更容易被选中，所以回答更稳定。高温会让分布变平，低概率选项更可能出现，所以回答更有变化。它影响的是采样方式，不是模型知识本身。

这解释了为什么写代码、抽取信息、改格式时通常适合低温；头脑风暴、广告语、故事创作时可以适当提高温度。任务越需要准确和一致，越不应该追求发散。

互动理解

下面的滑杆展示温度如何改变候选分布。你可以把它看成“稳定性”和“多样性”的取舍。

温度滑杆

温度越低越稳定，温度越高越容易尝试低概率表达。

Temperature：0.7

回去拿伞83%

冲进雨里13%

开始跳舞4%

平衡表达

适合大多数日常写作和解释任务，在稳定和多样之间取平衡。

常见误区

第一个误区是把高温当成更有创造力的万能按钮。高温会增加多样性，但也会增加跑题、编造和格式不稳定的概率。创意任务需要筛选，高风险任务不能靠高温碰运气。

第二个误区是以为低温就一定正确。低温只是更倾向于高概率答案。如果模型的知识不足、上下文错误、问题前提有误，低温也可能稳定地产生错误。

第三个误区是忽略产品层设置。很多聊天产品不会暴露 temperature，或者会针对不同模式自动设置。你看到的稳定或发散，不一定只由用户可见参数决定。

实用方法

可以按任务类型选择温度思路。

事实核对、合同条款提取、格式转换、代码改错，优先低温和明确约束。文案创意、标题备选、故事设定、头脑风暴，可以提高温度并要求给多个候选。复杂写作可以分两步：先高温发散出方向，再低温整理成稳定版本。

无论温度高低，重要结论都需要检查。温度调节的是表达路径，不是事实来源。

自我检查

可以把温度和任务风险对应起来。给会议纪要改错别字，应该稳定；给新产品取 20 个名字，可以发散；给客户合同提取付款条款，必须保守；给小说人物设计背景，可以更开放。温度不是审美选择，而是任务策略。

如果产品不提供温度设置，也可以用 Prompt 间接表达：需要稳定时说“只基于材料回答，不要扩展”；需要发散时说“给出 10 个差异明显的方向”。这不能完全替代参数，但能帮助模型沿着正确的生成风格工作。

真实场景

写招聘 JD 时，可以先用较发散的方式让模型给出多个卖点方向，再选择其中最符合公司实际的一版，最后用更稳定的要求统一语气和格式。反过来，如果你在提取候选人简历中的工作年限，就不应该追求创意表达，而应该让模型严格按原文抽取，并标出不确定项。

同一个模型，在不同任务里应该像不同工具。创意阶段需要更多候选，交付阶段需要稳定和可核验。温度只是其中一个控制手段，真正的关键是先判断任务处在哪个阶段。

如果你不知道该怎么选，可以先用稳定设置得到一个可靠基线，再要求模型“另给三种风格明显不同的版本”。这样既保留可控结果，也获得发散空间。对于要对外发布的内容，最后仍应回到低风险、可检查的版本。

在团队协作里，也可以把温度思路写进流程：创意阶段允许多样，审核阶段要求稳定，发布阶段只保留已经核对过的内容。这样每个人都知道什么时候可以探索，什么时候必须收敛。

如果一个输出会直接影响客户、合同、健康或财务，就不要用发散设置追求惊喜。先求稳定，再谈表达。

把温度理解成“探索程度”，会比把它理解成“聪明程度”更准确。探索可以带来灵感，但交付需要收敛。

一句话总结

温度控制的是模型选择候选 token 时的保守或发散程度；低温更稳定，高温更多样，但都不能替代事实核查。