返回课程目录
第二单元:大模型到底是怎么生成文字的
第 09 章

温度与随机性:为什么同一个问题会有不同答案?

理解 temperature 如何影响稳定性、发散性和创作感。

本地学习进度

已完成 0 / 32

核心问题

为什么同一个问题问 AI 两次,答案可能不完全一样?为什么有时它很稳定,有时又突然给出很发散的表达?这和生成过程中的随机性有关,其中最常见的控制参数就是 temperature,也就是“温度”。

温度不是让模型变聪明或变笨的按钮,而是影响它在候选答案中选择得更保守还是更发散。

先建立直觉

想象你在点奶茶。低温模式像你每次都点最熟悉的招牌款,稳定、可预期、不容易踩雷。高温模式像你愿意尝试新品、隐藏菜单和奇怪搭配,可能有惊喜,也可能不好喝。

温度旋钮改变候选 token 概率分布尖锐或发散的示意图
低温让输出更稳定,高温让选择更分散,答案也更容易出现变化。

模型生成时也会面对候选 token。某些候选非常符合上下文,概率高;某些候选也说得通,但更少见;还有一些候选很跳跃。温度越低,模型越倾向于选高概率候选;温度越高,低概率候选获得更多机会。

概念拆解

模型每一步生成时,并不是只看到一个唯一答案,而是得到一组候选 token 的概率分布。比如一句话后面,“回去拿伞”概率很高,“冲进雨里”概率较低,“开始跳舞”概率更低。

低温会让概率分布更尖,最高概率选项更容易被选中,所以回答更稳定。高温会让分布变平,低概率选项更可能出现,所以回答更有变化。它影响的是采样方式,不是模型知识本身。

这解释了为什么写代码、抽取信息、改格式时通常适合低温;头脑风暴、广告语、故事创作时可以适当提高温度。任务越需要准确和一致,越不应该追求发散。

互动理解

下面的滑杆展示温度如何改变候选分布。你可以把它看成“稳定性”和“多样性”的取舍。

温度滑杆

温度越低越稳定,温度越高越容易尝试低概率表达。

回去拿伞83%
冲进雨里13%
开始跳舞4%

平衡表达

适合大多数日常写作和解释任务,在稳定和多样之间取平衡。

常见误区

第一个误区是把高温当成更有创造力的万能按钮。高温会增加多样性,但也会增加跑题、编造和格式不稳定的概率。创意任务需要筛选,高风险任务不能靠高温碰运气。

第二个误区是以为低温就一定正确。低温只是更倾向于高概率答案。如果模型的知识不足、上下文错误、问题前提有误,低温也可能稳定地产生错误。

第三个误区是忽略产品层设置。很多聊天产品不会暴露 temperature,或者会针对不同模式自动设置。你看到的稳定或发散,不一定只由用户可见参数决定。

实用方法

可以按任务类型选择温度思路。

事实核对、合同条款提取、格式转换、代码改错,优先低温和明确约束。文案创意、标题备选、故事设定、头脑风暴,可以提高温度并要求给多个候选。复杂写作可以分两步:先高温发散出方向,再低温整理成稳定版本。

无论温度高低,重要结论都需要检查。温度调节的是表达路径,不是事实来源。

自我检查

可以把温度和任务风险对应起来。给会议纪要改错别字,应该稳定;给新产品取 20 个名字,可以发散;给客户合同提取付款条款,必须保守;给小说人物设计背景,可以更开放。温度不是审美选择,而是任务策略。

如果产品不提供温度设置,也可以用 Prompt 间接表达:需要稳定时说“只基于材料回答,不要扩展”;需要发散时说“给出 10 个差异明显的方向”。这不能完全替代参数,但能帮助模型沿着正确的生成风格工作。

真实场景

写招聘 JD 时,可以先用较发散的方式让模型给出多个卖点方向,再选择其中最符合公司实际的一版,最后用更稳定的要求统一语气和格式。反过来,如果你在提取候选人简历中的工作年限,就不应该追求创意表达,而应该让模型严格按原文抽取,并标出不确定项。

同一个模型,在不同任务里应该像不同工具。创意阶段需要更多候选,交付阶段需要稳定和可核验。温度只是其中一个控制手段,真正的关键是先判断任务处在哪个阶段。

如果你不知道该怎么选,可以先用稳定设置得到一个可靠基线,再要求模型“另给三种风格明显不同的版本”。这样既保留可控结果,也获得发散空间。对于要对外发布的内容,最后仍应回到低风险、可检查的版本。

在团队协作里,也可以把温度思路写进流程:创意阶段允许多样,审核阶段要求稳定,发布阶段只保留已经核对过的内容。这样每个人都知道什么时候可以探索,什么时候必须收敛。

如果一个输出会直接影响客户、合同、健康或财务,就不要用发散设置追求惊喜。先求稳定,再谈表达。

把温度理解成“探索程度”,会比把它理解成“聪明程度”更准确。探索可以带来灵感,但交付需要收敛。

延伸阅读

一句话总结

温度控制的是模型选择候选 token 时的保守或发散程度;低温更稳定,高温更多样,但都不能替代事实核查。