多模态：为什么 AI 不只是会聊天？

核心问题

前面 24 章我们主要在讨论"模型读文字、写文字"。但你可能已经注意到，ChatGPT 可以看懂你上传的截图，Claude 能分析 PDF 文档里的图表，Gemini 能同时处理视频和语音，手机上有些 AI 能识别照片里的物体并直接用中文描述。

为什么有些模型只能处理文字，有些却能"看见"图片、"看懂"语音、"看懂"视频？这背后的能力叫多模态。理解多模态，不是为了追逐新功能，而是为了搞清楚：你的任务到底需不需要文字以外的输入？纯文本模型够用吗？

先建立直觉

可以把纯文本模型想象成一个只能通过文字交流的同事。你给他发消息，他回消息。他看不见你的办公桌，听不到会议室里的讨论，也没法看你发过去的截图。你只能把所有信息转换成文字再告诉他。

多模态模型，更像是给这位同事配了眼睛和耳朵。他不仅能读你写的文字，还能直接看懂你传的照片、图表、截图，甚至看懂一段录音、看懂一段视频里的动作。他的信息来源从"纯文字"扩展到了"人能感知的多种形态"。

但多模态不是免费的午餐。处理图片、音频和视频需要更多计算资源，成本更高，延迟也可能更大。所以选择多模态模型还是纯文本模型，要看你手头的信息是否真的需要这些额外通道。

概念拆解

多模态的"模态"，指的是信息的形式：文字是一种模态，图片是另一种，声音、视频、表格、代码、3D 模型各自都是不同的模态。多模态模型的目标，是让同一个模型能理解和关联不同形式的信息。

它的实现原理可以这样理解：不同模态的信息先被转换成模型能处理的统一表示。文字通过 tokenization 变成 token 序列，图片被切成小块再转换成向量，音频被切成时间片段再编码。这些不同来源的表示进入同一个模型后，模型学习它们之间的对应关系——比如"一只橘猫趴在沙发上"这句话和一张橘猫趴在沙发上的照片，在模型内部会形成相近的表示。

这也是为什么你可以对多模态模型说"这张截图的第三段讲了什么"，它能先"看"截图找到第三段，再把内容用文字回答你。它不是分别处理文字和图片，而是把两种信息放在一起理解。

目前主流的多模态模型通常在文本大模型的基础上扩展视觉等能力。也就是说，先用海量文本训练出一个强大的语言模型作为底座，再给它接上"眼睛"和"耳朵"模块，用图文配对数据、视频数据、语音数据继续训练。这解释了为什么多模态模型的文字能力通常不弱于纯文本模型——底座是一样的，多模态是往上加能力。

互动理解

下面的对比组件展示了同一个问题在纯文本模型和多模态模型面前的不同处境。重点看：当信息天然是视觉形态时（图表、截图、照片），多模态模型省去了"口述转文字"这一步。

理解式路线 vs 生成式路线

这不是胜负表，而是看两种路线分别擅长什么。

更像接龙写作和对话续写

今天天气很好，我和朋友去公园散步，还顺路买了咖啡。

它只看已经出现的内容，然后不断生成下一个文字块，所以更容易扩展成开放对话。

常见误区

第一个误区是以为多模态模型一定更好。如果你的任务只需要处理文字——写邮件、总结文章、改代码、翻译句子——纯文本模型通常更便宜、更快，而且能力不一定更差。多模态的价值体现在信息本身是多形态的时候。

第二个误区是把多模态等同于"什么都懂"。能看懂图片不等于理解图片里的业务逻辑。比如模型可以识别一张合同截图里的文字，但它不一定能判断条款是否公平；它可以描述一张 X 光片里的结构，但绝对不能替代医生做诊断。多模态拓展了输入通道，但没有消除"输出需要验证"这个根本约束。

第三个误区是忽略隐私和成本。上传图片、音频、视频到云端模型，意味着这些数据离开了你的设备。一张随手拍的办公桌照片可能无意中包含屏幕上的敏感信息、桌上的工牌、墙上的内部通告。多模态用得越多，越要注意哪些内容不应该被送入外部模型。

实用方法

选择是否使用多模态模型，可以先问自己两个问题：任务的关键信息是否天然存在于非文字形态中？如果硬把图片、音频转成文字描述，是否会导致信息丢失或严重不便？

如果答案是"是"，多模态模型值得尝试。例如分析一张复杂的图表、从产品包装照片中提取成分表、理解一段带语气的语音留言、对比两张设计稿的差异。这类任务里，多模态模型直接处理原始信息，比"先口述再分析"准确得多。

如果答案"不是"——你只是想让 AI 写一段文案、改一封邮件、解释一个概念——纯文本模型足够了。不要为了"功能多"而支付额外的成本和延迟。

对于日常场景，还有一个实用分界：文字为主的任务用纯文本模型，图片/文档理解偶尔需要时用多模态模型，频繁处理音视频时再考虑专门的语音或视频模型。大部分人的日常使用，纯文本模型覆盖了 80% 以上的需求。

自我检查

可以拿你自己最近一周的 AI 使用做一次清点：有多少次你真正需要 AI 看图、看文档、听语音？有多少次你只是让它处理文字但开了一个多模态窗口？如果后者居多，说明纯文本方案已经够用——你可能是在为没用到的能力买单。

如果你经常需要让 AI 理解截图、设计稿、合同扫描件、产品照片，那么多模态模型的价值就很明确。但即便在这种场景里，也建议养成两个习惯：上传前检查图片中是否有不该暴露的信息，对关键解读结果做人工核实。

一个更深入的检查是：多模态模型给出的图片描述，是你自己能验证的吗？如果模型说"这张 X 光片显示有阴影"，你既没有医学知识也没有原片做对比，就不能把它当诊断依据。可验证性规则不仅适用于文字输出，也适用于图片、音频和视频输入。

真实场景

一家电商公司用多模态模型做商品上架审核。商家上传商品照片和描述后，模型同时检查：照片和文字描述是否匹配（照片上是红色连衣裙，文字不能写蓝色）、照片中是否有违规内容、商品标签是否符合平台要求。这种场景里，多模态模型直接处理视觉信息，比"让人先描述照片再让纯文本模型判断"高效得多。

但同一家公司，在处理客服聊天、订单查询、退换货政策回答时，仍然使用纯文本模型。因为那些任务的信息天然是文字形态，不需要视觉能力。这个例子说明了关键原则：选多模态还是纯文本，取决于任务信息是什么形态的，而不是哪个功能听上去更先进。

对于普通人来说，最有价值的多模态场景通常是文档理解——把 PDF 合同、论文截图、会议白板照片直接交给模型，让它提取关键信息或翻译成易懂的说明。这比手动打字再粘贴高效得多，但仍然需要人类对输出结果做最终确认。

一句话总结

多模态让模型能看图、听声、看视频，但当信息天然是文字时，纯文本模型往往更便宜也足够好——选什么形态，取决于你的信息长什么样。