返回课程目录
第七单元:如果你还想知道更多
第 22 章

蒸馏:为什么小模型可以有大能力?

用老师教学生的比喻,理解大模型的知识如何浓缩到小模型中。

本地学习进度

已完成 0 / 32

核心问题

为什么小模型可以拥有一部分大模型能力?为什么手机、浏览器、本地电脑上也能跑一些 AI 功能?这背后常见的一条路线是蒸馏。

蒸馏的直觉是:让大模型像老师一样输出高质量示范,小模型像学生一样学习这些示范,从而在更低成本下掌握常见任务能力。

先建立直觉

老师读过很多书、经验丰富,回答问题时会给出完整解释。学生不可能立刻拥有老师全部知识,但可以通过学习老师的解题过程、答案风格和关键结论,掌握一部分能力。

大模型像老师一样把示范答案传递给小模型学习
蒸馏像老师带学生:小模型通过模仿大模型示范,获得更轻量的能力。

小模型也是这样。它不一定保存大模型所有细节,但可以学到常见问题的回答方式、基本推理路径、任务格式和表达风格。这样它运行更快、成本更低,适合部署在本地或端侧。

概念拆解

蒸馏通常不是简单复制模型文件,而是训练一个更小的模型去模仿更大模型的行为。大模型生成大量示范数据,小模型用这些数据学习。训练目标可以是模仿答案、模仿中间步骤、模仿分类结果,或在特定任务上逼近大模型表现。

蒸馏的价值在于效率。大模型能力强,但部署昂贵、延迟高、对硬件要求高。小模型能力有限,但便宜、快、可本地运行。对于固定场景,例如客服意图识别、简单总结、离线翻译、端侧助手,小模型可能已经足够。

蒸馏也可以和微调结合。企业可以让小模型专注某个窄任务,而不是追求通用能力。

蒸馏会保留什么,会丢失什么?通常,小模型更容易学会常见任务的回答格式、基本推理路径、常见知识关联和输出风格。但它在复杂推理、长链条因果分析、冷门知识、微妙语境判断上容易掉队。比如老师能分析一份复杂合同的潜在风险并给出法理依据,学生可能只能识别明显的不公平条款,却难以发现隐蔽的连带责任。蒸馏不是压缩文件,不可能既缩小体积又保留所有细节。

蒸馏的质量还取决于"老师"教了什么。如果大模型老师只在通用问答上做示范,小模型学生也只会通用问答;如果老师在编程、数学、特定行业知识上也做了针对性示范,学生才可能学到这些能力。所以蒸馏不是一次性操作,而是一组设计决策:用哪些老师、教什么内容、怎么评估学生学到了多少。

互动理解

下面的组件对比大模型老师和小模型学生对同一问题的回答。重点看:小模型保留核心意思,但会牺牲细节和泛化能力。

大模型 vs 小模型

点击切换,对比大模型和蒸馏后小模型对同一问题的回答。核心意思保留,细节有所取舍。

用户提问:可再生能源的发展趋势如何?

大模型(老师)

根据《2024年全球可再生能源报告》,太阳能发电成本在过去十年下降了89%,风电下降了70%。主要原因包括技术迭代、规模效应和供应链优化。预计到2030年,可再生能源在全球电力结构中的占比将从目前的30%提升至50%以上。

回答更详细,引用了具体数据和趋势分析,但也需要更多计算资源。

常见误区

第一个误区是以为蒸馏能免费得到完整大模型。蒸馏是压缩和迁移,不是魔法复制。小模型会丢失部分知识、推理能力和复杂任务表现。

第二个误区是以为小模型只能玩具化。只要任务范围明确,小模型可以非常实用。例如本地摘要、敏感文本预处理、简单分类和离线助手。

第三个误区是忽略评估。蒸馏后的小模型必须在真实任务上测试,不能只看“回答像不像老师”。

实用方法

选择大模型还是小模型,可以看任务范围。

如果你需要通用能力、复杂推理、多领域知识和高质量创作,优先使用大模型。如果你需要低成本、高速度、本地部署、隐私控制或固定任务,小模型更有价值。很多系统会组合使用:大模型处理复杂任务,小模型处理高频轻量任务。

蒸馏让 AI 能力更容易部署到日常设备,但它也提醒我们:模型选择不是越大越好,而是能力、成本、速度和隐私之间的取舍。

几个典型选择场景可以参考。如果任务是通用对话、复杂写作、多步推理,大模型更合适,蒸馏小模型可能牺牲太多质量。如果任务是固定格式提取、简单分类、常见问答、本地摘要,蒸馏小模型通常够用且成本更低。如果任务涉及隐私敏感的预处理(在数据送出本地之前先脱敏或归类),蒸馏小模型可以承担第一道工序。

组合策略在实践中最常见:大模型处理复杂、低频率、高价值任务;蒸馏小模型处理简单、高频、隐私敏感任务;如果小模型判断自己处理不了,再把请求升级给大模型。这种分层架构让成本和质量可以同时优化,而不是在大小之间做非此即彼的选择。

自我检查

判断一个小模型是否够用,可以拿真实任务测试,而不是只看参数。给它 20 条常见问题、10 条边界问题、5 条容易误解的问题,看看它是否稳定。如果只是日常摘要,它可能够用;如果要复杂推理,就可能明显吃力。

蒸馏后的模型特别适合“重复、明确、低风险”的任务。它不适合承担广泛知识问答和高风险判断。把学生放在适合的岗位上,比强迫学生做老师的所有工作更现实。

真实场景

一个手机输入法可能不需要最强大模型,只需要快速预测下一句、改写短句、离线保护隐私。一个企业客服入口也可以用小模型先判断意图,再把复杂问题交给大模型或人工。这样的分工比所有请求都打到最大模型更经济。

蒸馏的意义不是淘汰大模型,而是让不同大小的模型各司其职。

合适的模型放在合适的位置,才是成本和体验的平衡点。

在真实系统里,常见做法是分层调用:小模型先处理简单、高频、低风险任务;遇到复杂问题再交给大模型;遇到高风险问题再交给人类。蒸馏让第一层更便宜,也让整体系统更灵活。

这也解释了为什么未来不会只有一个最大模型。不同设备、不同成本、不同隐私要求,会让大模型、小模型和专用模型长期共存。蒸馏是这种分工的重要工具。

对普通用户来说,理解蒸馏的意义,是不要只问“哪个模型最强”,还要问“这个任务需要多强”。很多时候,够用、便宜、快、可本地运行,反而是更好的答案。

如果一个任务对隐私特别敏感,小模型本地运行的价值可能超过最强能力。技术选择永远服务于场景,而不是服务于排行榜。

蒸馏让模型能力下沉到更多设备,也让“合适”比“最大”更重要。

当模型能被放进手机、浏览器和企业内网,AI 才更接近真实日常。

延伸阅读

一句话总结

蒸馏让小模型学习大模型的行为,在牺牲部分能力的同时换来更低成本、更快速度和更易部署。