分布式训练入门:数据并行、张量并行与流水线并行 从单卡瓶颈出发,系统理解大模型训练中的三种核心并行策略,以及它们在 FSDP、DeepSpeed 等工程框架中的落地方式。 难度 前沿 · 125 分钟 · 更新 2026/03/24 训练工程 分布式训练 数据并行 张量并行 流水线并行
LLM 推理服务搭建:vLLM、TGI 与 Ollama 从本地原型到线上服务,理解主流推理框架的定位差异、部署方式、监控指标与生产化注意事项。 难度 进阶 · 120 分钟 · 更新 2026/03/24 推理优化 部署 vLLM TGI Ollama
大模型训练流水线总览 从数据准备、预训练、指令微调、偏好对齐到评测上线,建立一条完整、可落地的大模型训练工程地图。 难度 进阶 · 100 分钟 · 更新 2026/03/24 训练工程 预训练 SFT RLHF DPO
Prompt Engineering 系统指南 从任务定义、消息分层、few-shot、结构化输出到工具调用与评测回归,建立一套可复用的提示词工程方法。 难度 进阶 · 120 分钟 · 更新 2026/03/24 Prompting Few-shot Chain-of-Thought 结构化输出
位置编码详解(绝对 → 相对 → RoPE) 从“模型为什么需要顺序感”讲到绝对位置、相对位置与 RoPE,建立长上下文位置建模的统一直觉。 难度 进阶 · 110 分钟 · 更新 2026/03/24 位置编码 RoPE 长上下文 Transformer
模型量化入门:INT8、INT4、GPTQ 与 AWQ 从为什么要量化讲起,系统理解低比特表示、后训练量化与主流 4-bit 方法在大模型部署中的权衡。 难度 进阶 · 115 分钟 · 更新 2026/03/24 量化 推理优化 部署 系统性能
LoRA 微调实战 从任务定义、数据准备、PEFT 配置到评测回归,完整走一遍用 LoRA 微调开源大模型的最小闭环。 难度 进阶 · 120 分钟 · 更新 2026/03/24 高效微调 LoRA SFT 训练工程
多模态 LLM 原理与应用:从 CLIP 到 LLaVA 从图文对齐、视觉编码器、投影层到视觉指令微调,建立多模态大模型的核心心智模型与应用判断框架。 难度 进阶 · 125 分钟 · 更新 2026/03/24 多模态 视觉-语言 视觉指令微调 CLIP LLaVA
Agent 与工具调用实战:从 Function Calling 到 ReAct 工作流 从工具 schema 设计、调用循环、失败处理到评测闭环,建立一套可落地的 Agent 与工具调用实践框架。 难度 进阶 · 135 分钟 · 更新 2026/03/24 Agent 工具调用 结构化输出 Prompting 评测
RAG 系统搭建实战 从文档清洗、切块、向量检索、重排序到回答生成与评测闭环,完整搭建一个可落地的 RAG 系统。 难度 进阶 · 125 分钟 · 更新 2026/03/24 RAG 检索增强 向量检索 重排序
SFT 数据构造与质量控制 从任务定义、样本模板、数据清洗、多样性设计到评测回流,建立一套可落地的指令微调数据工程方法。 难度 进阶 · 110 分钟 · 更新 2026/03/24 SFT 数据工程 训练工程 指令数据
Transformer Block 完整拆解 把 LayerNorm、残差连接、多头注意力、FFN 和堆叠逻辑放到一个统一框架里,理解一个 block 为什么能成为现代大模型的基础积木。 难度 进阶 · 105 分钟 · 更新 2026/03/24 Transformer Transformer Block LayerNorm 基础原理
词嵌入与 Tokenizer 原理 从分词、词表、BPE 到 embedding 查表与位置对齐,建立“文本如何变成模型可计算向量”的完整直觉。 难度 入门 · 95 分钟 · 更新 2026/03/24 Tokenizer Embedding 基础原理 预训练
KV Cache 与推理性能优化 理解 KV Cache 如何减少自回归解码中的重复计算,并系统掌握延迟、吞吐、显存与服务调度之间的权衡。 难度 进阶 · 90 分钟 · 更新 2026/03/23 推理优化 KV Cache 系统性能 PagedAttention
Transformer 注意力机制入门 用直觉解释、数值例子和最小代码示例,真正理解 Q/K/V、缩放点积注意力与 Multi-Head 的工作方式。 难度 入门 · 90 分钟 · 更新 2026/03/23 Transformer Attention 基础原理