CLIP:用自然语言监督统一视觉与文本表示

用海量图文对做对比学习,让视觉模型第一次真正学会“按语言理解图片”,成为后续多模态大模型的重要基础设施。

年份与会议

2021 · ICML

作者

Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、et al.

主题

多模态

阅读时长

约 1 分钟

收录时间

2021/02/26

标签

原文链接

https://arxiv.org/abs/2103.00020

为什么 CLIP 会成为多模态时代的起点

在 CLIP 出现之前,视觉模型和语言模型虽然都已经很强,但它们大多活在两个世界里:

  • 图像分类模型擅长在固定标签集里做识别
  • 语言模型擅长理解和生成文本
  • 视觉与语言之间缺少一个足够通用、足够大规模的共同表示空间

这带来一个明显限制:传统视觉模型往往只能回答“这张图是不是猫”,却很难自然地理解“这是一只正在窗台上打盹的橘猫”这样的开放描述。

CLIP 的重要性就在这里。它没有把图像理解定义成封闭的类别识别问题,而是重新提出了一个更现代的问题:

如果我们直接用自然语言作为监督信号,让模型学习图片和文本之间的对齐关系,会发生什么?

答案是:视觉模型第一次真正获得了“按语言理解世界”的能力。这也是为什么今天我们回头看多模态大模型时,几乎都会把 CLIP 当成关键起点。

背景:为什么固定标签监督不够

传统计算机视觉长期依赖 ImageNet 一类数据集,这种训练范式的核心特点是:

  • 图片配一个离散标签
  • 模型学习从像素映射到固定类别
  • 任务边界清晰,但表达能力有限

这种方式当然有效,但也有明显天花板:

  1. 标签空间太窄,无法覆盖开放世界概念。
  2. 类别名称往往很短,无法表达细粒度语义。
  3. 训练目标和真实用户表达方式差距很大。

现实世界里的视觉理解,往往不是“这是不是狗”这么简单,而更像:

  • 这张图里发生了什么
  • 这幅图与哪段描述最匹配
  • 这张图是否体现了某种风格、情绪或意图

也就是说,视觉理解天然需要和语言表达对齐。CLIP 正是把这个直觉变成了可规模化训练的方法。

核心想法:让图片和文本在同一个语义空间里对齐

CLIP 的方法可以概括成一句话:

给定一张图和一段文本,让模型学会把匹配的图文拉近,不匹配的图文推远。

从结构上看,CLIP 有两个编码器:

  • 一个图像编码器,负责把图片映射到向量
  • 一个文本编码器,负责把文字描述映射到向量

训练时,模型看到一批图文对,然后优化一个对比学习目标。目标不是直接预测分类标签,而是让正确配对的图文在向量空间里更接近。

这件事的意义非常大,因为一旦图像和文本真的共享语义空间,就会自然产生很多能力:

  • 用文本检索图片
  • 用图片匹配文本
  • 用自然语言直接定义分类任务

后来的 zero-shot image classification,本质上就是这条路线的直接结果。

CLIP 的训练目标到底在做什么

CLIP 通常会在一个 batch 中拿到很多图文对。对每张图,它都要在一批文本里找到正确描述;对每段文本,也要在一批图片里找到对应图像。

因此它的损失可以理解成双向匹配:

  • image-to-text
  • text-to-image

你可以把它想成一个“大规模配对游戏”:

  • 正确图文配对应该得高分
  • 错误配对应该得低分

训练久了以后,模型就会逐渐学会哪些视觉模式对应哪些语言概念。这种学习方式和传统分类最大的区别是:

  • 它不再依赖封闭类别
  • 它直接把自然语言当作监督接口

这也是为什么 CLIP 的表达能力远比传统标签监督更开放。

为什么自然语言监督如此强大

CLIP 最关键的洞察之一,是自然语言本身就是一种极高密度的监督信号。与单个类别标签相比,文本描述可以包含:

  • 对象是什么
  • 对象之间的关系
  • 场景背景
  • 动作状态
  • 风格和属性

举个直观例子:

  • 标签监督可能只有 dog
  • 文本监督可以是 “a small white dog running on the beach at sunset”

两者包含的信息量完全不是一个量级。也正因为如此,CLIP 学到的不是孤立类别边界,而是更接近人类语言组织世界的方式。

从今天看,这正是多模态模型最需要的能力:不是“认出一个标签”,而是“把视觉内容翻译到语言语义里”。

Zero-shot 分类为什么会成为 CLIP 的标志性成果

CLIP 最让工业界震动的一点,是它展示了非常强的 zero-shot 分类能力。做法其实很巧妙:

  1. 给定图片
  2. 把每个候选类别改写成自然语言模板,例如 “a photo of a cat”
  3. 分别编码图片和这些文本模板
  4. 选择最相近的文本作为预测结果

这背后的意义并不只是“分类准确率不错”,而是:

模型不需要针对每个任务重新训练一个分类头,只要把任务写成语言,就能直接做判断。

这其实非常接近今天大模型应用的一条主线:任务接口越来越像语言,而不是特定结构化头部。

换句话说,CLIP 不只是一个视觉模型,它让“语言成为视觉任务接口”这件事变得现实。

为什么说 CLIP 为后续多模态大模型打了地基

今天我们讨论多模态 LLM,经常会想到 LLaVA、GPT-4V、Flamingo 一类系统。但这些工作要真正成立,通常都依赖一个前提:

  • 图像特征必须已经能比较好地映射到语言语义空间

CLIP 恰恰提供了这个前提。它让图像编码器不再只是视觉特征提取器,而是语言可对齐的语义提取器。后来很多视觉-语言模型,都会直接或间接站在这条路线之上。

从系统视角看,CLIP 的贡献可以概括成三层:

  1. 证明了 web-scale 图文对训练是可行的。
  2. 证明了自然语言监督可以替代大量手工类别标签。
  3. 证明了图像理解可以通过语言接口迁移到开放任务。

这三点基本定义了后来多模态大模型的底座方向。

局限:CLIP 很强,但它还不是“会看图对话”的大模型

虽然 CLIP 非常重要,但要注意它的能力边界。CLIP 更像一个“对齐后的图文匹配模型”,而不是完整的多模态对话系统。

它的主要局限包括:

1. 它更擅长匹配,不直接擅长复杂生成

CLIP 的训练目标主要是对比对齐,而不是长文本生成或多轮对话。

2. 对细粒度推理和组合关系仍有限

它能很好捕捉图文语义相似性,但面对复杂视觉推理、细节计数、长链解释时,并不等于真正“理解”。

3. 数据偏差会直接进入表示空间

web-scale 图文对规模巨大,但噪声、偏见和分布失衡也会一并被学进去。

4. 它不是视觉世界模型

CLIP 并不显式建模时间、因果、交互过程,它更像一个强大的跨模态对齐器。

因此,CLIP 是地基,但不是整栋楼。它回答的是“如何把图像和语言放进同一空间”,而不是“如何围绕图像做完整的推理和对话”。

从今天看,CLIP 最重要的遗产是什么

CLIP 留下的最大遗产,不只是一个模型,而是一种范式转换:

  1. 视觉监督不必局限于人工标签。
  2. 语言可以成为视觉任务的通用接口。
  3. 多模态系统的核心不只是堆两个模态,而是学会对齐。

今天几乎所有多模态系统设计,都会默认接受这三点。也就是说,CLIP 改变的不是一个 benchmark,而是大家构建视觉-语言系统的出发点。

读这篇论文时最该抓住什么

如果你只想抓住主线,请记住:

  1. CLIP 的关键不是“做视觉分类”,而是“做视觉与语言对齐”。
  2. 自然语言监督提供了远比单标签更丰富的训练信号。
  3. CLIP 的真正价值在于为 zero-shot 视觉任务和后续多模态 LLM 奠定了基础。

理解了这三点,你再去看后来的视觉指令微调、多模态对话和 VLM 系统,就会更清楚它们是在 CLIP 的哪一层之上继续往前走。

延伸阅读

相关内容

沿着相近主题继续阅读,加深对方法边界与实践场景的理解。