核心问题
为什么同样是问 AI,一句短问题可能几乎没有成本,一篇长报告总结却明显更贵?为什么多轮对话越聊越长,明明每次只问一句,账单却可能持续增加?答案在 token 账本里。
大模型服务通常按输入 token 和输出 token 计费。输入不只是你最后打的那句话,还包括系统提示词、历史对话、上传资料、RAG 检索片段和工具返回结果。输出则是模型生成的回答。只看“我问了几个字”,很容易低估真实消耗。
先建立直觉
可以把一次调用想成请一位顾问看材料并写报告。你给他一页纸,他读得快、收费低;你给他一本厚厚的资料夹,他需要先读完再回答,成本自然增加。如果还要求他写一份很长的分析报告,写作本身也要收费。

Token 账本也是同理。输入像“读材料”的成本,输出像“写答案”的成本。长文总结贵,是因为模型要读大量材料;长篇生成贵,是因为模型要写很多内容;多轮对话贵,是因为历史内容可能反复被带入。
概念拆解
一次模型调用大致可以拆成三部分。
第一部分是固定上下文,例如系统指令、角色要求、安全边界、输出格式。用户通常看不到这些内容,但它们会占 token。第二部分是任务材料,包括用户问题、历史对话、上传文件、检索片段等。第三部分是模型输出,也就是它生成的回答。
不同模型和服务商的价格结构可能不同,但逻辑类似:输入和输出分别计费,输出通常更贵,因为生成需要逐步产生新 token。多轮对话中,如果应用每次都把历史聊天带进去,那么早期内容会一遍遍进入输入账本。
这也是为什么 RAG 并不等于省钱。RAG 能提高依据性,但检索出来的资料片段也要作为输入交给模型。资料越多,输入 token 越多;如果检索片段不相关,还会同时浪费成本和干扰回答。
互动理解
下面的账本可以切换不同场景。重点观察“短问答、长文总结、多轮对话、带资料问答”的输入和输出结构差异。
Token 账本
调节输入和输出长度,观察费用为什么通常由输入和生成共同决定。
当前场景:长文总结,按 DeepSeek V4 Flash 人民币价格模拟。长文一次性塞入上下文,输入成本会明显上升。
缓存命中输入:2,400 Token,¥0.000048
缓存未命中输入:9,600 Token,¥0.009600
输出费用:¥0.002400
合计:¥0.012048
常见误区
第一个误区是只按问题字数估算成本。真正进入模型的上下文可能比你看到的输入框多得多,尤其是在企业应用里,后台提示词、用户资料、检索片段都可能被拼进去。
第二个误区是以为回答越详细越好。详细回答当然有价值,但如果只是让模型重复背景、堆砌解释,就会增加输出 token 和阅读负担。
第三个误区是把省 token 理解成一味压缩。删掉关键约束会让模型返工,反而浪费更多轮次。好的成本控制是去掉无关内容,保留任务所需的核心信息。
实用方法
管理 token 成本可以从四个动作开始。
第一,长文先让模型提纲化,再决定哪些段落需要深入处理。第二,多轮任务中定期总结,替代完整历史对话。第三,RAG 检索只放最相关的片段,不把整库材料都塞进窗口。第四,明确输出长度,比如“用 5 条要点回答”或“先给摘要,再等我决定是否展开”。
对于个人用户,这些习惯能让对话更清晰。对于企业应用,它们还会影响延迟、账单和稳定性。Token 不是抽象技术细节,而是每一次 AI 使用背后的真实资源账本。
自我检查
可以把一次 AI 使用拆成账单问题:它需要读多少材料?需要写多长答案?历史对话是否会重复带入?有没有检索资料或工具返回结果?如果你能回答这四个问题,就能大致判断为什么某些任务更贵。
在团队里,最好不要只规定“大家少用 AI”。更有效的是设计任务模板:长文先摘要,资料先筛选,输出先限定格式,高成本任务记录用途。这样既不压制使用,也能让成本和质量可控。
真实场景
一个客服团队如果把每条完整历史工单都塞给模型,让它生成回复,成本会很快上升。更稳的做法是先抽取客户问题、订单状态、最近一次处理记录和可用政策,再让模型生成草稿。这样减少 token,也减少模型被旧信息干扰的机会。
从工程角度看,省 token 往往也是提质量。输入更干净,模型更容易抓住当前任务;输出更克制,人也更容易审核。成本优化和体验优化并不冲突。
如果一个流程经常超预算,先检查是不是把过多历史、重复说明和无关资料带进了每一轮。
把上下文当账本管理,才能让大模型服务长期可用。
最好的账本不是限制使用,而是让每次使用都有明确目的。
延伸阅读
- 理解 token 是什么,才能真正看懂账本——回顾第 5 章:Token
- 上下文窗口的大小决定了"读材料"的上限——第 6 章:上下文窗口
一句话总结
Token 账本同时记录读进去的材料和写出来的答案;长文本、长对话和带资料问答都会让成本上升。