核心问题
为什么同一个问题问 AI 两次,答案可能不完全一样?为什么有时它很稳定,有时又突然给出很发散的表达?这和生成过程中的随机性有关,其中最常见的控制参数就是 temperature,也就是“温度”。
温度不是让模型变聪明或变笨的按钮,而是影响它在候选答案中选择得更保守还是更发散。
先建立直觉
想象你在点奶茶。低温模式像你每次都点最熟悉的招牌款,稳定、可预期、不容易踩雷。高温模式像你愿意尝试新品、隐藏菜单和奇怪搭配,可能有惊喜,也可能不好喝。

模型生成时也会面对候选 token。某些候选非常符合上下文,概率高;某些候选也说得通,但更少见;还有一些候选很跳跃。温度越低,模型越倾向于选高概率候选;温度越高,低概率候选获得更多机会。
概念拆解
模型每一步生成时,并不是只看到一个唯一答案,而是得到一组候选 token 的概率分布。比如一句话后面,“回去拿伞”概率很高,“冲进雨里”概率较低,“开始跳舞”概率更低。
低温会让概率分布更尖,最高概率选项更容易被选中,所以回答更稳定。高温会让分布变平,低概率选项更可能出现,所以回答更有变化。它影响的是采样方式,不是模型知识本身。
这解释了为什么写代码、抽取信息、改格式时通常适合低温;头脑风暴、广告语、故事创作时可以适当提高温度。任务越需要准确和一致,越不应该追求发散。
互动理解
下面的滑杆展示温度如何改变候选分布。你可以把它看成“稳定性”和“多样性”的取舍。
温度滑杆
温度越低越稳定,温度越高越容易尝试低概率表达。
平衡表达
适合大多数日常写作和解释任务,在稳定和多样之间取平衡。
常见误区
第一个误区是把高温当成更有创造力的万能按钮。高温会增加多样性,但也会增加跑题、编造和格式不稳定的概率。创意任务需要筛选,高风险任务不能靠高温碰运气。
第二个误区是以为低温就一定正确。低温只是更倾向于高概率答案。如果模型的知识不足、上下文错误、问题前提有误,低温也可能稳定地产生错误。
第三个误区是忽略产品层设置。很多聊天产品不会暴露 temperature,或者会针对不同模式自动设置。你看到的稳定或发散,不一定只由用户可见参数决定。
实用方法
可以按任务类型选择温度思路。
事实核对、合同条款提取、格式转换、代码改错,优先低温和明确约束。文案创意、标题备选、故事设定、头脑风暴,可以提高温度并要求给多个候选。复杂写作可以分两步:先高温发散出方向,再低温整理成稳定版本。
无论温度高低,重要结论都需要检查。温度调节的是表达路径,不是事实来源。
自我检查
可以把温度和任务风险对应起来。给会议纪要改错别字,应该稳定;给新产品取 20 个名字,可以发散;给客户合同提取付款条款,必须保守;给小说人物设计背景,可以更开放。温度不是审美选择,而是任务策略。
如果产品不提供温度设置,也可以用 Prompt 间接表达:需要稳定时说“只基于材料回答,不要扩展”;需要发散时说“给出 10 个差异明显的方向”。这不能完全替代参数,但能帮助模型沿着正确的生成风格工作。
真实场景
写招聘 JD 时,可以先用较发散的方式让模型给出多个卖点方向,再选择其中最符合公司实际的一版,最后用更稳定的要求统一语气和格式。反过来,如果你在提取候选人简历中的工作年限,就不应该追求创意表达,而应该让模型严格按原文抽取,并标出不确定项。
同一个模型,在不同任务里应该像不同工具。创意阶段需要更多候选,交付阶段需要稳定和可核验。温度只是其中一个控制手段,真正的关键是先判断任务处在哪个阶段。
如果你不知道该怎么选,可以先用稳定设置得到一个可靠基线,再要求模型“另给三种风格明显不同的版本”。这样既保留可控结果,也获得发散空间。对于要对外发布的内容,最后仍应回到低风险、可检查的版本。
在团队协作里,也可以把温度思路写进流程:创意阶段允许多样,审核阶段要求稳定,发布阶段只保留已经核对过的内容。这样每个人都知道什么时候可以探索,什么时候必须收敛。
如果一个输出会直接影响客户、合同、健康或财务,就不要用发散设置追求惊喜。先求稳定,再谈表达。
把温度理解成“探索程度”,会比把它理解成“聪明程度”更准确。探索可以带来灵感,但交付需要收敛。
延伸阅读
- 回顾本单元的核心线索和关键收获 → 第二单元总结
- 温度影响"稳定性 vs 发散",这与模型的推理表现直接相关——第 10 章:推理
- 理解了生成机制后,可以回头看第 8 章:接下一句话巩固 next-token prediction 的直觉
一句话总结
温度控制的是模型选择候选 token 时的保守或发散程度;低温更稳定,高温更多样,但都不能替代事实核查。