年份与会议
2021 · ICML
用海量图文对做对比学习,让视觉模型第一次真正学会“按语言理解图片”,成为后续多模态大模型的重要基础设施。
年份与会议
2021 · ICML
作者
Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、et al.
主题
多模态
阅读时长
约 1 分钟
收录时间
2021/02/26
在 CLIP 出现之前,视觉模型和语言模型虽然都已经很强,但它们大多活在两个世界里:
这带来一个明显限制:传统视觉模型往往只能回答“这张图是不是猫”,却很难自然地理解“这是一只正在窗台上打盹的橘猫”这样的开放描述。
CLIP 的重要性就在这里。它没有把图像理解定义成封闭的类别识别问题,而是重新提出了一个更现代的问题:
如果我们直接用自然语言作为监督信号,让模型学习图片和文本之间的对齐关系,会发生什么?
答案是:视觉模型第一次真正获得了“按语言理解世界”的能力。这也是为什么今天我们回头看多模态大模型时,几乎都会把 CLIP 当成关键起点。
传统计算机视觉长期依赖 ImageNet 一类数据集,这种训练范式的核心特点是:
这种方式当然有效,但也有明显天花板:
现实世界里的视觉理解,往往不是“这是不是狗”这么简单,而更像:
也就是说,视觉理解天然需要和语言表达对齐。CLIP 正是把这个直觉变成了可规模化训练的方法。
CLIP 的方法可以概括成一句话:
给定一张图和一段文本,让模型学会把匹配的图文拉近,不匹配的图文推远。
从结构上看,CLIP 有两个编码器:
训练时,模型看到一批图文对,然后优化一个对比学习目标。目标不是直接预测分类标签,而是让正确配对的图文在向量空间里更接近。
这件事的意义非常大,因为一旦图像和文本真的共享语义空间,就会自然产生很多能力:
后来的 zero-shot image classification,本质上就是这条路线的直接结果。
CLIP 通常会在一个 batch 中拿到很多图文对。对每张图,它都要在一批文本里找到正确描述;对每段文本,也要在一批图片里找到对应图像。
因此它的损失可以理解成双向匹配:
你可以把它想成一个“大规模配对游戏”:
训练久了以后,模型就会逐渐学会哪些视觉模式对应哪些语言概念。这种学习方式和传统分类最大的区别是:
这也是为什么 CLIP 的表达能力远比传统标签监督更开放。
CLIP 最关键的洞察之一,是自然语言本身就是一种极高密度的监督信号。与单个类别标签相比,文本描述可以包含:
举个直观例子:
dog两者包含的信息量完全不是一个量级。也正因为如此,CLIP 学到的不是孤立类别边界,而是更接近人类语言组织世界的方式。
从今天看,这正是多模态模型最需要的能力:不是“认出一个标签”,而是“把视觉内容翻译到语言语义里”。
CLIP 最让工业界震动的一点,是它展示了非常强的 zero-shot 分类能力。做法其实很巧妙:
这背后的意义并不只是“分类准确率不错”,而是:
模型不需要针对每个任务重新训练一个分类头,只要把任务写成语言,就能直接做判断。
这其实非常接近今天大模型应用的一条主线:任务接口越来越像语言,而不是特定结构化头部。
换句话说,CLIP 不只是一个视觉模型,它让“语言成为视觉任务接口”这件事变得现实。
今天我们讨论多模态 LLM,经常会想到 LLaVA、GPT-4V、Flamingo 一类系统。但这些工作要真正成立,通常都依赖一个前提:
CLIP 恰恰提供了这个前提。它让图像编码器不再只是视觉特征提取器,而是语言可对齐的语义提取器。后来很多视觉-语言模型,都会直接或间接站在这条路线之上。
从系统视角看,CLIP 的贡献可以概括成三层:
这三点基本定义了后来多模态大模型的底座方向。
虽然 CLIP 非常重要,但要注意它的能力边界。CLIP 更像一个“对齐后的图文匹配模型”,而不是完整的多模态对话系统。
它的主要局限包括:
CLIP 的训练目标主要是对比对齐,而不是长文本生成或多轮对话。
它能很好捕捉图文语义相似性,但面对复杂视觉推理、细节计数、长链解释时,并不等于真正“理解”。
web-scale 图文对规模巨大,但噪声、偏见和分布失衡也会一并被学进去。
CLIP 并不显式建模时间、因果、交互过程,它更像一个强大的跨模态对齐器。
因此,CLIP 是地基,但不是整栋楼。它回答的是“如何把图像和语言放进同一空间”,而不是“如何围绕图像做完整的推理和对话”。
CLIP 留下的最大遗产,不只是一个模型,而是一种范式转换:
今天几乎所有多模态系统设计,都会默认接受这三点。也就是说,CLIP 改变的不是一个 benchmark,而是大家构建视觉-语言系统的出发点。
如果你只想抓住主线,请记住:
理解了这三点,你再去看后来的视觉指令微调、多模态对话和 VLM 系统,就会更清楚它们是在 CLIP 的哪一层之上继续往前走。
沿着相近主题继续阅读,加深对方法边界与实践场景的理解。