多模态 LLM 原理与应用:从 CLIP 到 LLaVA 从图文对齐、视觉编码器、投影层到视觉指令微调,建立多模态大模型的核心心智模型与应用判断框架。 难度 进阶 · 更新 2026/03/24 多模态 视觉-语言 视觉指令微调 CLIP LLaVA
LLaVA:Visual Instruction Tuning 让大模型真正看图对话 用视觉编码器加语言模型,再通过视觉指令微调把“能看图”升级为“能围绕图片对话”,成为开源多模态 LLM 的关键里程碑。 2023 · NeurIPS Workshop LLaVA 多模态 视觉指令微调 开源模型