返回课程目录
第二单元:大模型到底是怎么生成文字的
第 07 章

Token 账本:为什么长文本会变贵?

把输入、输出、上下文和费用之间的关系讲清楚。

本地学习进度

已完成 0 / 32

核心问题

为什么同样是问 AI,一句短问题可能几乎没有成本,一篇长报告总结却明显更贵?为什么多轮对话越聊越长,明明每次只问一句,账单却可能持续增加?答案在 token 账本里。

大模型服务通常按输入 token 和输出 token 计费。输入不只是你最后打的那句话,还包括系统提示词、历史对话、上传资料、RAG 检索片段和工具返回结果。输出则是模型生成的回答。只看“我问了几个字”,很容易低估真实消耗。

先建立直觉

可以把一次调用想成请一位顾问看材料并写报告。你给他一页纸,他读得快、收费低;你给他一本厚厚的资料夹,他需要先读完再回答,成本自然增加。如果还要求他写一份很长的分析报告,写作本身也要收费。

输入 Token 和输出 Token 分列在账本中的成本示意图
Token 账本提醒我们:系统指令、历史资料和模型回答都会占用成本。

Token 账本也是同理。输入像“读材料”的成本,输出像“写答案”的成本。长文总结贵,是因为模型要读大量材料;长篇生成贵,是因为模型要写很多内容;多轮对话贵,是因为历史内容可能反复被带入。

概念拆解

一次模型调用大致可以拆成三部分。

第一部分是固定上下文,例如系统指令、角色要求、安全边界、输出格式。用户通常看不到这些内容,但它们会占 token。第二部分是任务材料,包括用户问题、历史对话、上传文件、检索片段等。第三部分是模型输出,也就是它生成的回答。

不同模型和服务商的价格结构可能不同,但逻辑类似:输入和输出分别计费,输出通常更贵,因为生成需要逐步产生新 token。多轮对话中,如果应用每次都把历史聊天带进去,那么早期内容会一遍遍进入输入账本。

这也是为什么 RAG 并不等于省钱。RAG 能提高依据性,但检索出来的资料片段也要作为输入交给模型。资料越多,输入 token 越多;如果检索片段不相关,还会同时浪费成本和干扰回答。

互动理解

下面的账本可以切换不同场景。重点观察“短问答、长文总结、多轮对话、带资料问答”的输入和输出结构差异。

Token 账本

调节输入和输出长度,观察费用为什么通常由输入和生成共同决定。

当前场景:长文总结,按 DeepSeek V4 Flash 人民币价格模拟。长文一次性塞入上下文,输入成本会明显上升。

缓存命中输入:2,400 Token,¥0.000048

缓存未命中输入:9,600 Token,¥0.009600

输出费用:¥0.002400

合计:¥0.012048

常见误区

第一个误区是只按问题字数估算成本。真正进入模型的上下文可能比你看到的输入框多得多,尤其是在企业应用里,后台提示词、用户资料、检索片段都可能被拼进去。

第二个误区是以为回答越详细越好。详细回答当然有价值,但如果只是让模型重复背景、堆砌解释,就会增加输出 token 和阅读负担。

第三个误区是把省 token 理解成一味压缩。删掉关键约束会让模型返工,反而浪费更多轮次。好的成本控制是去掉无关内容,保留任务所需的核心信息。

实用方法

管理 token 成本可以从四个动作开始。

第一,长文先让模型提纲化,再决定哪些段落需要深入处理。第二,多轮任务中定期总结,替代完整历史对话。第三,RAG 检索只放最相关的片段,不把整库材料都塞进窗口。第四,明确输出长度,比如“用 5 条要点回答”或“先给摘要,再等我决定是否展开”。

对于个人用户,这些习惯能让对话更清晰。对于企业应用,它们还会影响延迟、账单和稳定性。Token 不是抽象技术细节,而是每一次 AI 使用背后的真实资源账本。

自我检查

可以把一次 AI 使用拆成账单问题:它需要读多少材料?需要写多长答案?历史对话是否会重复带入?有没有检索资料或工具返回结果?如果你能回答这四个问题,就能大致判断为什么某些任务更贵。

在团队里,最好不要只规定“大家少用 AI”。更有效的是设计任务模板:长文先摘要,资料先筛选,输出先限定格式,高成本任务记录用途。这样既不压制使用,也能让成本和质量可控。

真实场景

一个客服团队如果把每条完整历史工单都塞给模型,让它生成回复,成本会很快上升。更稳的做法是先抽取客户问题、订单状态、最近一次处理记录和可用政策,再让模型生成草稿。这样减少 token,也减少模型被旧信息干扰的机会。

从工程角度看,省 token 往往也是提质量。输入更干净,模型更容易抓住当前任务;输出更克制,人也更容易审核。成本优化和体验优化并不冲突。

如果一个流程经常超预算,先检查是不是把过多历史、重复说明和无关资料带进了每一轮。

把上下文当账本管理,才能让大模型服务长期可用。

最好的账本不是限制使用,而是让每次使用都有明确目的。

延伸阅读

一句话总结

Token 账本同时记录读进去的材料和写出来的答案;长文本、长对话和带资料问答都会让成本上升。