LLaVA

专题聚合页：打通教程、路径、模拟器与论文，快速构建完整知识链路。

教程 (1)

多模态 LLM 原理与应用：从 CLIP 到 LLaVA

从图文对齐、视觉编码器、投影层到视觉指令微调，建立多模态大模型的核心心智模型与应用判断框架。

难度进阶 · 更新 2026/03/24

多模态视觉-语言视觉指令微调 CLIP LLaVA

学习路径 (0)

暂无学习路径

后续会补充该方向的阶段化学习路线。

可视化模拟 (0)

暂无模拟器

后续会补充该方向的交互式仿真内容。

论文 (1)

LLaVA：Visual Instruction Tuning 让大模型真正看图对话

用视觉编码器加语言模型，再通过视觉指令微调把“能看图”升级为“能围绕图片对话”，成为开源多模态 LLM 的关键里程碑。

2023 · NeurIPS Workshop

LLaVA 多模态视觉指令微调开源模型