多模态 LLM 原理与应用:从 CLIP 到 LLaVA 从图文对齐、视觉编码器、投影层到视觉指令微调,建立多模态大模型的核心心智模型与应用判断框架。 难度 进阶 · 更新 2026/03/24 多模态 视觉-语言 视觉指令微调 CLIP LLaVA
CLIP:用自然语言监督统一视觉与文本表示 用海量图文对做对比学习,让视觉模型第一次真正学会“按语言理解图片”,成为后续多模态大模型的重要基础设施。 2021 · ICML CLIP 多模态 视觉-语言 对比学习