Token 账本：为什么长文本会变贵？

核心问题

为什么同样是问 AI，一句短问题可能几乎没有成本，一篇长报告总结却明显更贵？为什么多轮对话越聊越长，明明每次只问一句，账单却可能持续增加？答案在 token 账本里。

大模型服务通常按输入 token 和输出 token 计费。输入不只是你最后打的那句话，还包括系统提示词、历史对话、上传资料、RAG 检索片段和工具返回结果。输出则是模型生成的回答。只看“我问了几个字”，很容易低估真实消耗。

先建立直觉

可以把一次调用想成请一位顾问看材料并写报告。你给他一页纸，他读得快、收费低；你给他一本厚厚的资料夹，他需要先读完再回答，成本自然增加。如果还要求他写一份很长的分析报告，写作本身也要收费。

输入 Token 和输出 Token 分列在账本中的成本示意图 — Token 账本提醒我们：系统指令、历史资料和模型回答都会占用成本。

Token 账本也是同理。输入像“读材料”的成本，输出像“写答案”的成本。长文总结贵，是因为模型要读大量材料；长篇生成贵，是因为模型要写很多内容；多轮对话贵，是因为历史内容可能反复被带入。

概念拆解

一次模型调用大致可以拆成三部分。

第一部分是固定上下文，例如系统指令、角色要求、安全边界、输出格式。用户通常看不到这些内容，但它们会占 token。第二部分是任务材料，包括用户问题、历史对话、上传文件、检索片段等。第三部分是模型输出，也就是它生成的回答。

不同模型和服务商的价格结构可能不同，但逻辑类似：输入和输出分别计费，输出通常更贵，因为生成需要逐步产生新 token。多轮对话中，如果应用每次都把历史聊天带进去，那么早期内容会一遍遍进入输入账本。

这也是为什么 RAG 并不等于省钱。RAG 能提高依据性，但检索出来的资料片段也要作为输入交给模型。资料越多，输入 token 越多；如果检索片段不相关，还会同时浪费成本和干扰回答。

互动理解

下面的账本可以切换不同场景。重点观察“短问答、长文总结、多轮对话、带资料问答”的输入和输出结构差异。

Token 账本

调节输入和输出长度，观察费用为什么通常由输入和生成共同决定。

输入 Token：12,000输出 Token：1,200缓存命中：20%

当前场景：长文总结，按 DeepSeek V4 Flash 人民币价格模拟。长文一次性塞入上下文，输入成本会明显上升。

缓存命中输入：2,400 Token，¥0.000048

缓存未命中输入：9,600 Token，¥0.009600

输出费用：¥0.002400

合计：¥0.012048

常见误区

第一个误区是只按问题字数估算成本。真正进入模型的上下文可能比你看到的输入框多得多，尤其是在企业应用里，后台提示词、用户资料、检索片段都可能被拼进去。

第二个误区是以为回答越详细越好。详细回答当然有价值，但如果只是让模型重复背景、堆砌解释，就会增加输出 token 和阅读负担。

第三个误区是把省 token 理解成一味压缩。删掉关键约束会让模型返工，反而浪费更多轮次。好的成本控制是去掉无关内容，保留任务所需的核心信息。

实用方法

管理 token 成本可以从四个动作开始。

第一，长文先让模型提纲化，再决定哪些段落需要深入处理。第二，多轮任务中定期总结，替代完整历史对话。第三，RAG 检索只放最相关的片段，不把整库材料都塞进窗口。第四，明确输出长度，比如“用 5 条要点回答”或“先给摘要，再等我决定是否展开”。

对于个人用户，这些习惯能让对话更清晰。对于企业应用，它们还会影响延迟、账单和稳定性。Token 不是抽象技术细节，而是每一次 AI 使用背后的真实资源账本。

自我检查

可以把一次 AI 使用拆成账单问题：它需要读多少材料？需要写多长答案？历史对话是否会重复带入？有没有检索资料或工具返回结果？如果你能回答这四个问题，就能大致判断为什么某些任务更贵。

在团队里，最好不要只规定“大家少用 AI”。更有效的是设计任务模板：长文先摘要，资料先筛选，输出先限定格式，高成本任务记录用途。这样既不压制使用，也能让成本和质量可控。

真实场景

一个客服团队如果把每条完整历史工单都塞给模型，让它生成回复，成本会很快上升。更稳的做法是先抽取客户问题、订单状态、最近一次处理记录和可用政策，再让模型生成草稿。这样减少 token，也减少模型被旧信息干扰的机会。

从工程角度看，省 token 往往也是提质量。输入更干净，模型更容易抓住当前任务；输出更克制，人也更容易审核。成本优化和体验优化并不冲突。

如果一个流程经常超预算，先检查是不是把过多历史、重复说明和无关资料带进了每一轮。

把上下文当账本管理，才能让大模型服务长期可用。

最好的账本不是限制使用，而是让每次使用都有明确目的。

一句话总结

Token 账本同时记录读进去的材料和写出来的答案；长文本、长对话和带资料问答都会让成本上升。