Gemma 4 12B 取消多模态编码器:Google 押注统一 token 空间
Gemma 4 12B 把视觉和音频直接喂进语言模型主干,放弃了独立编码器。这是一个架构赌注,而不只是又一个端侧模型。
概述
Google DeepMind 发布了 Gemma 4 12B,定位是「能直接跑在笔记本上的 agentic 多模态模型」。参数量介于此前的边缘款 E4B 和更大的 26B 专家混合(MoE)之间,16GB 显存或统一内存即可本地运行,采用 Apache 2.0 许可。
但真正值得停下来看的不是这些数字,而是它的架构选择:没有多模态编码器。视觉和音频不再经过各自的专用编码器再转交给语言模型,而是直接流入 LLM 主干。这在工业级开放模型里是一次明确的方向性下注:把多年沉淀的专用视觉/音频编码器换成一个统一的 token 空间。对要选型的建设者来说,这个决定比「又一款 12B」更需要被想清楚。
发生了什么
Gemma 4 12B 把传统多模态模型里的两个组件砍掉了。
视觉这边,Google 用一个轻量嵌入模块替换了原来的视觉编码器,按官方说法,这个模块只是「一次矩阵乘法加上位置嵌入和归一化」。过去那个动辄几亿参数、专门负责把图像翻译成模型能懂的表示的视觉塔,被压缩成了一层近乎线性的投影,剩下的视觉理解工作全部交还给 LLM 主干自己完成。
音频这边走得更彻底:编码器被整个移除,原始音频信号被直接投影到和文本 token 相同的维度空间里。声音和文字在进入模型时被当成同一种东西对待。这也是 Gemma 系列第一个中等规模、原生支持音频输入的型号。
官方给出的理由很直接:分离的编码器会增加延迟、占用更多内存。砍掉它们,是为了让模型在普通硬件上既轻又快。配套的还有用于降低延迟的多 token 预测(MTP)草稿机制,以及一个面向 agent 的官方 Skills 仓库。整个 Gemma 4 系列至此累计下载量已越过 1.5 亿次,这个体量决定了它的架构选择会被很多人当成默认起点来抄。
为何重要
编码器不是历史包袱,而是过去几年多模态模型能力的主要来源之一。一个训练充分的视觉编码器,本身就携带了大量关于「世界长什么样」的先验:边缘、纹理、物体、空间关系。把它接到语言模型上,等于让语言模型站在一个已经看懂图像的组件肩膀上。Gemma 4 12B 的做法是把这个肩膀撤掉,赌 LLM 主干自己能在统一的 token 空间里重新学会这些先验。
这个赌注的诱人之处在于简洁。一套主干、一套权重、一套优化路径,不用再维护「编码器、连接层、语言模型」这条经常对不齐、各自版本各自调的流水线。对部署而言,内存和延迟都更可控;对研究而言,统一空间意味着模型有机会在模态之间共享表示,而不是在拼接处反复翻译。这正是「统一 token 空间长期优于专用编码器」这一信仰的核心:模态的边界本就是人为划的,模型不该被这条线束缚。
代价同样真实。专用编码器是多年算力和数据投出来的视觉先验,撤掉它,这部分能力要么靠主干在训练里补回来,要么就打了折扣。官方说基准表现「接近 26B」,但没有公布 Gemma 4 12B 在视觉、音频上的具体跑分,也没有给出与带编码器架构的同尺寸对照。现在能确认的是「架构更省、能跑在笔记本上」,还不能确认「在难的视觉任务上不掉点」。这条信息缺口,恰恰是建设者最需要自己补测的地方。
对建设者的影响
如果你的产品形态是端侧 agent(本地跑、要看屏幕截图、要听语音、对延迟和隐私敏感),Gemma 4 12B 把门槛拉到了一台 16GB 的笔记本。这是实打实的可用性变化,不是营销话术。LM Studio、Ollama、llama.cpp、MLX、vLLM 都已支持,你今天就能拉权重跑起来,Apache 2.0 也意味着商用没有许可顾虑。
但选型时要把架构赌注换算成自己的风险。先想清楚你的多模态负载偏哪一类。如果以「看懂界面、读文档截图、识别简单图表」这类贴近自然图像和文字的任务为主,统一空间大概率够用,甚至因为没有编码器中转而更顺。如果你的核心是细粒度视觉,比如医学影像、精密缺陷检测、OCR 密集的复杂版面,那专用编码器积累的先验恰恰是你最依赖的,此时 encoder-free 是需要实测验证而不是默认信任的。官方既然没给这些场景的对照数字,验证责任就落在你这边。
落地路径上有个务实建议:别把它当成你唯一的多模态后端来押,先用你自己的真实样本跑一轮离线评测,和你现在用的带编码器模型逐项对照。架构简洁带来的运维收益是确定的,能力是否等价是不确定的。把不确定的那部分用你的数据测掉,再决定切多少流量过来。对多数端侧场景,合理的姿势是:值得认真试,但先小流量、带对照、保留回退。
该忽略什么
别被「1.5 亿次下载」直接推导出「架构已被验证最优」。下载量反映的是 Gemma 这个品牌和生态的吸引力,以及端侧开放模型的整体热度,它不证明 encoder-free 这条具体路线在你的任务上更强。把流行度当成正确性的证据,是这类发布最容易诱发的误读。
也别急着把它读成「专用编码器时代结束了」。一个 12B 端侧模型上的架构选择,是在「省内存、能上笔记本」这组约束下的最优解,不等于在云端大模型、在追求极致视觉精度的场景里也成立。约束不同,最优架构就可能不同。Gemma 4 12B 证明的是 encoder-free 在端侧这个具体格子里走得通,而不是它在所有格子里都赢。
最后,HN 上千点赞、数百条讨论很热闹,但社区的兴奋点多半在「能在笔记本/手机上跑本地 agent」这件事本身,而不是有人拿出了严谨的视觉跑分对照。热度可以帮你判断「值得试」,但替代不了你自己那一轮带对照的评测。
技术要点
视觉路径被替换成「单次矩阵乘法 + 位置嵌入 + 归一化」的轻量嵌入模块,把视觉理解的主体工作交还 LLM 主干;音频路径更激进,直接把原始信号投影进与文本 token 同维的空间,完全没有音频编码器。配套的 MTP 草稿机制用于压低推理延迟。需要注意的是,官方只给了「接近 26B、内存不到一半」这类相对描述,没有公布 12B 自身在各多模态基准上的绝对分数。这是评估这套架构时最该自己补齐的一格。