视频大模型训练学习路线

Phase 1 · 2-3 周

基础入门 — 把训练循环吃透

不要只看视频，要亲手写。目标：理解参数、loss、反向传播、训练循环这套「共通语言」。

课程 ★★★ 入门

Karpathy — Neural Networks: Zero to Hero

前 Tesla AI 总监的大师课。从零手写反向传播，一路到微型 GPT。真正把神经网络、训练过程和 Transformer「吃透」的最佳材料。

手写代码必学免费

课程 ★★★ 入门

PyTorch 官方 60 分钟入门

快速上手 PyTorch：Tensor 操作、自动微分、构建神经网络。整个视频大模型生态都建立在 PyTorch 之上。

PyTorch动手必学

必读 ★★★ 入门

The Illustrated Transformer

Jay Alammar 的经典图文。Transformer 是 DiT 的核心，不理解 Self-Attention 就无法理解现代视频模型。

Transformer图文教程必读

动手实践

跑通一个最小 PyTorch 训练脚本

⏱ 第 1 周

不管是 MNIST 分类还是最简单的回归——关键是你亲手写 DataLoader → forward → loss → backward → step 的完整循环，看到 loss 下降曲线，保存 checkpoint。

跟 Karpathy 课程手写 micrograd + makemore

⏱ 第 2-3 周

手写反向传播引擎（micrograd），手写字符级语言模型（makemore）。这两个练完，你对训练过程的理解就不再是黑盒。

阶段产出：能看懂训练日志（loss、lr、step），能改超参数看到效果变化，能用 PyTorch 从零写训练循环。如果你已有这些能力，直接跳 Phase 2。

Phase 2 · 3-4 周

图像扩散 — 你的第一个生成模型

视频模型本质是在图像扩散之上加时间维度。先用图像建立扩散直觉，再扩展到视频。

课程 ★★★ 中级

Hugging Face — Diffusion Models 课程

最好的扩散模型入门实践课程。从零实现 DDPM，用 diffusers 库训练你的第一个扩散模型。带代码、作业。

Diffusion动手必学免费

论文 ★★★ 中级

DDPM — Denoising Diffusion Probabilistic Models

现代扩散模型的奠基论文。理解前向加噪、反向去噪、噪声预测网络。所有视频模型都基于此。

DDPM必读扩散基础

论文 ★★ 中级

LDM / Stable Diffusion — Latent Diffusion Models

在潜空间做扩散而不是像素空间。这是 Stable Diffusion 的基础，也是所有现代视频模型的核心思路。

LDM潜空间重要

论文 ★★★ 进阶

DiT — Scalable Diffusion Models with Transformers

Meta 的 DiT，用 Transformer 替代 U-Net 做去噪。这是 Sora、Wan2.1、SeedDance 等现代视频模型的架构基础。

DiT核心架构必读

论文进阶

Flow Matching for Generative Modeling

Flow Matching / Rectified Flow，比传统 DDPM 更高效的训练范式。新一代视频模型（如 Wan2.1）普遍采用。

Flow Matching新范式重要

论文中级

Classifier-Free Guidance (CFG)

如何让生成结果更好地遵循文本指令？CFG 是关键技巧，理解 guidance scale 的工作原理。

CFG训练技巧必学

论文中级

ViT — An Image is Worth 16x16 Words

Vision Transformer，将图像分割成 patch 当 token 处理。DiT 的直接前身，理解 DiT 之前先理解 ViT。

ViTDiT前身按需精读

动手实践

用 Diffusers 训练图像 DDPM

⏱ 1-2 周 · GPU: 单卡 A100/4090

从 Hugging Face diffusers 的 training example 出发，在小数据集（CIFAR-10 / Pokemon）上训练一个简单的 DDPM。理解训练循环、噪声调度、采样过程。

Diffusers 训练示例配套课程

LoRA 微调 Stable Diffusion

⏱ 1-2 周 · GPU: 单卡 24GB+

学会 LoRA（Low-Rank Adaptation）微调。在自己的数据集上训练人物/风格 LoRA。这是你第一次真正理解「生成模型怎么训、怎么评」。

DreamBooth LoRA LoRA 文档 Diffusers 源码

阶段产出：一组固定 prompt 的图像生成结果（训练前 vs 训练后 vs LoRA）。你已经走完「图像扩散闭环」——理论 + 训练 + 评估。

Phase 3 · 4-6 周

视频模型 — 先跑推理，再做微调

不要一上来读全仓库。先跑 inference 建立手感，再做视频 LoRA，最后读架构。

论文 ★★★ 进阶

Sora 技术报告 — Video as World Simulators

OpenAI Sora 的技术思路。奠定了「视频 patch → DiT → 世界模拟器」的范式。开源模型已追平其水平。

Sora范式定义必读

开源模型 ★★★ · 主线进阶

Wan2.1 / Wan2.2 — 阿里万相视频大模型

最强开源视频模型（1.3B / 14B）。Wan2.2 新增 T2V-A14B、I2V、S2V（主体驱动视频）等多模态变体。DiT + Flow Matching + 3D-VAE，HuggingFace 下载量最高（145K+）。

开源DiT必学生态最全

开源模型进阶

CogVideoX — 智谱视频生成模型

清华智谱出品，2B/5B 参数，完整的 3D-VAE + 3D 因果注意力 DiT。代码清晰，适合学习架构设计。

开源3D VAE学习友好

开源模型进阶

HunyuanVideo 1.5 — 腾讯混元视频

腾讯出品，1.5 版优化至 8.3B 参数，推理速度提升 1.87x（SSTA 注意力）。Step Distillation 50→8 步，RTX 4090 可跑（14GB 起）。训练代码已开源。

开源8.3B消费级可跑训练代码

论文中级

CLIP — Learning Transferable Visual Models

OpenAI 的 CLIP，实现文本-图像对齐。视频模型用 CLIP/T5 来理解文本 prompt 和视觉内容的关系。到这个阶段你需要理解它。

CLIP多模态重要

论文进阶

Seedance 1.0 技术报告

字节跳动 Seedance 的技术思路。探索视频生成模型的边界，了解工业级视频模型的技术方案。

Seedance字节工业级

开源模型 · 2026 NEW 进阶

Helios — 实时长视频生成（2026.3）

北大出品，14B 自回归扩散模型，单卡 H100 实现 19.5 FPS 实时生成。支持分钟级长视频。蒸馏版仅需 6GB 显存。

实时生成自回归扩散长视频突破性

开源模型 · 2025 进阶

Mochi 1 — Genmo 10B 模型

Genmo 出品，10B 参数，Apache 2.0 许可。创新的 Asymmetric DiT（AsymmDiT）架构 + AsymmVAE（128x 压缩率）。

Apache 2.010B新架构

开源模型 · 音视频联合进阶

LTX-2 — 音视频联合 DiT 基座

音视频联合扩散 Transformer，双流架构 + 跨模态对齐。方向最接近 Seedance 2.0 的「音画联合 + 导演级控制」。官方提供 trainer 支持 LoRA/全量微调。

音视频联合官方trainer进阶方向

论文进阶

Step-Video-T2V — 阶跃视频模型技术报告

阶跃星辰出品，30B 参数，当前最大开源视频模型。48 层 DiT + 3D Full Attention + RoPE，含 Turbo 蒸馏版。

30B训练策略数据工程

动手实践

本地跑通 Wan2.1 1.3B 推理

⏱ 1-2 周 · GPU: RTX 4090（仅需 8GB 显存）

目标不是出神片，而是理解 prompt、resolution、fps、seed、scheduler、负面提示这些变量对结果的影响。固定一组 prompt 建立你自己的「评测小基准」。

Wan2.1 代码 HunyuanVideo 代码

训练一个视频 LoRA

⏱ 2-3 周 · GPU: 2-4 × A100 80GB（或用 FastVideo 在 4090 上微调）

选择 Wan2.2 1.3B 或 HunyuanVideo 1.5，在垂直领域数据上做视频 LoRA 微调。只做一个窄目标：固定角色 / 品牌 / 风格 / 镜头动作。推荐使用 Finetrainers 或 FastVideo。每 200-500 step 做一次固定 prompt 验证，不要盲目长训。

Finetrainers FastVideo CogVideoX 代码

阶段产出：before/after 对比页（LoRA 前 vs 后），一组固定 prompt 验证集的结果。你已经走完「视频微调闭环」——推理 + LoRA + 验证。

Phase 4 · 4-6 周

数据 + 评测 — 从「会跑 demo」到真正的能力

如果不做这一步，你会一直停留在「能跑通」。数据比模型技巧更重要，评测比主观感觉更可靠。

评测 ★★★

VBench / VBench-2.0 — 视频生成评测

综合视频生成评测套件。VBench-2.0 覆盖人类保真度、可控性、创造力、物理一致性等维度。不要只靠主观感觉评价模型。

评测必须接入

数据集参考

OpenVid-1M — 公开视频数据集

公开视频数据集参考实现，适合理解视频数据组织、caption 和元数据结构。

数据工程参考样本

数据集参考

YouTube-Commons — CC-BY 视频数据

带 CC-BY 授权的视频数据源，带溯源信息。商用场景下数据授权至关重要。

CC-BY授权明确

工具 ★★★

Finetrainers — HF 视频微调工具

Hugging Face 官方视频模型微调框架。支持 Wan/CogVideoX 等模型的 LoRA / Control / 全参微调。从「会跑模型」到「会训模型」的关键桥梁。

视频微调官方工具

工具 ★★★

FastVideo — 视频 DiT 训练/推理框架

支持 Wan2.2、HunyuanVideo 等模型的 LoRA/全参数微调，DMD2 蒸馏，FSDP2 + 序列并行，50x+ 去噪加速。

训练框架蒸馏FSDP2

动手实践

自己做一个小型视频数据集

⏱ 2-3 周 · 100-1000 段视频片段

把素材切成短片段，统一长度/fps/分辨率，给每个 clip 写 caption，建立 metadata.csv。你会在这个项目里第一次真正理解「数据 > 模型技巧」。

做一套固定评测集 + 接入 VBench

⏱ 1-2 周 · 30-100 条固定提示词

覆盖人物动作、复杂镜头、动物、物理常识、文字、多人交互。每次模型更新都重跑。接入 VBench 做自动评测。

VBench VBench-2.0

用自建数据重新做一次视频微调

⏱ 1-2 周

将 Phase 3 的视频 LoRA 换成自建数据重新训练，对比效果。这是你第一次体验「数据飞轮」：数据质量 → 模型质量 → 发现数据问题 → 改数据。

阶段产出：metadata 文件 + 固定验证集 + VBench 报告 + 数据迭代前后的对比。你已经走完「评测闭环」——自有数据 + 自动评分 + 可复现结果。

Phase 5 · 长期进阶

规模化训练 + 商用化

当你已经有微调闭环和评测闭环，再进入大规模训练、推理加速和商用工程。

工程

模型推理加速

商用的核心是成本和延迟。需要掌握：Step Distillation（50→8 步，HunyuanVideo 1.5 已验证）、稀疏注意力（SSTA）、模型量化（INT8/FP8）、TensorRT 部署。FastVideo 实现 50x+ 去噪加速。

蒸馏稀疏注意力FastVideo

数据

视频数据飞轮

数据决定上限。需要构建：视频爬取/清洗流水线、自动标注系统（用 VLM 生成 caption）、数据质量评估、数据去重、美学评分过滤。百万到千万级视频-文本对。

数据工程标注清洗

产品

可控性：ControlNet + IP-Adapter

商用需要精确控制。用户需要控制人物身份、动作、镜头、风格。训练 ControlNet、IP-Adapter、Reference-Net 等控制模块。

可控生成产品化重要

安全

内容安全 + 合规

商用必须解决：NSFW 检测、人脸伪造检测、版权内容过滤、水印嵌入（C2PA 标准）、区域合规（GDPR、国内法规）。

安全合规水印

参考项目

Open-Sora 2.0 — 11B 完整训练框架

Colossal-AI 团队，11B 模型仅 $200K 训练成本，VBench 上匹配 HunyuanVideo 和 Step-Video。最接近商用级别的开源参考。

训练框架$200K11B

参考项目

Open-Sora-Plan v1.5 — 北大开源计划

北大团队主导，v1.5 含 WFVAE（小波频率 VAE，8x8x8 下采样）+ 稀疏 DiT（SUV 架构，35% 加速）。8B 模型匹配 HunyuanVideo 质量。

WFVAE稀疏DiT8B

世界模型 · 2025 进阶

NVIDIA Cosmos — 世界基础模型

NVIDIA 出品，7B/14B 参数，物理感知的视频/世界生成。Text2World + Video2World，商用许可。代表了「视频即世界模拟」的新方向。

世界模型NVIDIA物理感知

工具

xDiT — DiT 推理并行引擎

视频 DiT 商用部署必备。推理并行化是从「能生成」到「能上线」的关键基础设施。HunyuanVideo 1.5 已集成。

推理并行部署

工具

FlashAttention

注意力算子优化，视频模型训练/推理性能的关键基础。几乎所有视频 DiT 都依赖 FlashAttention 加速。

算子优化必备

动手实践（进阶路线）

训练自己的 3D-VAE

⏱ 4-6 周 · GPU: 4-8 × A100

VAE 质量直接决定视频清晰度和时间一致性。参考 CogVideoX 和 Open-Sora-Plan 的 3D-VAE 实现，在视频数据上训练自己的 Video Tokenizer。

Open-Sora-Plan（含 3D-VAE）视频标注工具

从头训练完整视频 DiT

⏱ 8-16 周 · GPU: 8-64+ × H100/A100

终极目标：从头训练一个完整的视频 DiT 模型。参考 Open-Sora 2.0（11B 模型仅 $200K 训练成本）。需要大规模数据（百万级视频-文本对）、分布式训练基础设施。

Open-Sora 2.0 FastVideo DeepSpeed 分布式

做一个商用化雏形

⏱ 最小闭环 API / Web Demo

用户上传参考图/文本 → 任务队列 → 模型生成 → 存储输出 → 展示结果。接入内容审核 + 来源标记（C2PA），算清 GPU 成本和排队时延。

Content Credentials xDiT 推理并行

阶段产出：完整训练流水线 / 或商用 MVP。到这一步，你已经具备「能训练/微调/评估/部署视频模型」的完整能力。

核心概念速查（点击展开）

遇到不懂的概念？这里帮你快速理解。

Diffusion Model（扩散模型）

通过逐步加噪然后学会去噪来生成数据的模型。

↓ 点击展开详情

前向过程：把一张干净图片逐步加高斯噪声，直到变成纯噪声（大约 1000 步）。

反向过程：训练一个神经网络，学会在每一步预测并去除噪声。推理时从纯噪声开始，逐步去噪就能生成新图片。

数学核心：损失函数 = 预测噪声与真实噪声的 MSE。非常简单但极其有效。

为什么强：比 GAN 稳定，比 VAE 质量高，可以自然引入各种条件控制。

DiT（Diffusion Transformer）

用 Transformer 替代 U-Net 作为扩散模型的去噪骨干。

↓ 点击展开详情

传统扩散模型用 U-Net（下采样 → 上采样 + skip connection），DiT 直接把图像/视频分成 patch，展平成 token 序列，用标准 Transformer 处理。

优势：Transformer 的 scaling law 更好，参数越大效果越好；全局注意力捕捉长程依赖。

时间步编码：使用 AdaLN-Zero（自适应层归一化），根据时间步 t 动态调整每层的 scale 和 shift。

在视频模型中：输入 token = 空间 patch × 时间帧数，全注意力或时空分离注意力。

3D-VAE（视频变分自编码器）

将视频从像素空间压缩到低维潜空间的编解码器。

↓ 点击展开详情

视频的原始数据量巨大（比如 720p × 30fps × 5s = 上亿像素）。直接在像素空间做扩散不现实。

3D-VAE 干什么：同时在空间（宽高）和时间（帧数）维度做压缩。比如 8×8 空间 + 4× 时间压缩，数据量缩小 256 倍。

CausalConv3D：因果 3D 卷积，确保编码第 N 帧时只看前面的帧，保证时序一致性。

关键指标：重建质量（PSNR/SSIM）、时间一致性（无闪烁）、压缩比。

Flow Matching / Rectified Flow

比 DDPM 更高效的新一代扩散训练范式。

↓ 点击展开详情

DDPM 的前向过程是随机的（加随机噪声），采样也需要很多步。

Flow Matching：学习一个从噪声到数据的确定性流场（ODE），训练时直接学习速度场。

Rectified Flow：进一步让流场尽量是直线路径（最短路径），这样采样时只需要很少的步数（5-25步 vs DDPM 的 50-1000 步）。

实际好处：训练更稳定、采样更快、推理成本更低。Wan2.1、SD3 等新模型都用了这个。

LoRA（Low-Rank Adaptation）

用极少量参数微调大模型的技术，显存和数据需求大幅降低。

↓ 点击展开详情

大模型全参数微调需要巨大显存。LoRA 的核心思路：权重变化量 ΔW 可以分解为两个低秩矩阵 A × B。

举例：一个 4096×4096 的矩阵有 1600 万参数，用 rank=64 的 LoRA 只需 4096×64 + 64×4096 = 52 万参数（仅 3%）。

在视频模型中：常用来微调特定风格、人物、动作类型。是商用化个性定制的关键技术。

Classifier-Free Guidance (CFG)

让生成结果更忠实于文本提示的技巧。

↓ 点击展开详情

训练时随机丢弃文本条件（比如 10% 概率用空 prompt）。推理时同时做有条件和无条件预测：

输出 = 无条件预测 + guidance_scale × (有条件预测 - 无条件预测)

guidance_scale 越大，生成越忠实于文本但多样性越低。通常设 7.5-12.5。

这是一个非常简单但效果显著的技巧，几乎所有扩散模型都用。

Attention（注意力机制）

让模型关注输入中最相关部分的核心机制。

↓ 点击展开详情

Self-Attention：Q、K、V 来自同一输入。视频模型中用来建模空间（像素间关系）和时间（帧间关系）依赖。

Cross-Attention：Q 来自图像/视频特征，K/V 来自文本 embedding。这是「文本控制生成」的核心机制。

在视频 DiT 中的变体：全时空注意力（Full Spatiotemporal）、时空分离注意力（先 Spatial-Attn 再 Temporal-Attn）。前者效果好但计算量大。

自回归扩散混合（AR + Diffusion）

2026 年新范式：将自回归生成与扩散去噪结合，实现实时长视频生成。

↓ 点击展开详情

传统扩散模型一次生成整个视频，长度受限。自回归扩散混合将视频切分为 chunk，逐块生成：

Helios（2026.3）：14B 模型，每次自回归生成 33 帧，多尺度采样，无需 KV-cache 等传统加速就实现 19.5 FPS 实时生成。

HiAR（2026.3）：提出「step-first」去噪顺序（先完成所有块的第一步去噪，再做第二步...），比传统「block-first」顺序更稳定，理论支持 200+ 分钟视频。

为什么重要：这是视频模型从「短片段生成」走向「无限长度实时生成」的关键突破。

世界模型（World Models）

将视频生成重新定义为「世界模拟」，具备物理规律理解能力。

↓ 点击展开详情

Sora 技术报告提出「视频作为世界模拟器」后，世界模型成为新研究方向：

NVIDIA Cosmos（2025）：「World Foundation Models」，物理感知的视频生成，用于机器人和自动驾驶模拟。

Runway GWM-1（2025.12）：通用世界模型，支持原生音频，定位视频为「下一代计算范式」。

与普通视频生成的区别：世界模型不只是生成好看的视频，而是要理解重力、碰撞、光影等物理规律，生成「真实世界的模拟」。

Step Distillation（步数蒸馏）

将扩散模型的 50+ 步推理压缩到 8-12 步，推理速度提升 5-10 倍。

↓ 点击展开详情

扩散模型推理需要多步去噪（通常 50-1000 步），很慢。Step Distillation 通过知识蒸馏大幅减少步数：

训练方式：用多步教师模型的输出指导少步学生模型，让学生用更少步数达到相同质量。

实际案例：HunyuanVideo 1.5 从 50 步压缩到 8-12 步（75% 加速），Step-Video-T2V-Turbo 10-15 步，FastVideo 实现 50x+ 去噪加速。

现状：2025-2026 年已成为视频模型部署的标准操作，是商用化的必备技术。

分布式训练（DeepSpeed / FSDP）

多 GPU/多节点训练大模型的工程基础。

↓ 点击展开详情

视频模型参数量 1B-30B+，单卡放不下。需要分布式训练：

数据并行：每卡一份模型，不同数据。最简单。
ZeRO（DeepSpeed）：把优化器状态、梯度、参数分片存储在不同 GPU 上。ZeRO-1/2/3 分别分片不同内容。
FSDP（PyTorch 原生）：类似 ZeRO-3，完全分片数据并行。
张量并行：把单个矩阵乘法拆分到多卡（Megatron-LM 风格）。
梯度检查点：用时间换空间，推理时重算中间结果而不存储，显存可节省 60%+。

模型	License	商用建议	需要注意
Wan2.1 / Wan2.2	Apache-2.0	最推荐作为商用基座	上线前核对权重与依赖条款
Mochi 1	Apache-2.0	适合商用 + 研究	官方模型卡明确标注 Apache-2.0
NVIDIA Cosmos	NVIDIA Open Model	商用可用（需遵守条款）	注意 NVIDIA 开放模型许可的具体限制
CogVideoX	自定义商用条款	学习优先，商用需登记	需注册 basic commercial license；>100万 MAU 需额外授权
HunyuanVideo 1.5	Tencent Community	适合研究/学习	排除欧盟、英国、韩国；>100M MAU 需另行许可；禁止用输出改进其他 AI
LTX-2	LTX-2 Community	学音视频联合方向	年收入 ≥ $10M 的商业实体需购买付费商业许可

阶段	任务	最低 GPU	推荐配置	预算参考（云）
Phase 1	学习、跑教程	RTX 3060 12GB	RTX 4090 24GB	按需租用，$0.3-1/h
Phase 2	图像扩散训练 + LoRA	RTX 4090 24GB	1× A100 80GB	$1-2/h
Phase 3 推理	视频模型推理	RTX 4090 24GB	1× A100 80GB	$1-2/h
Phase 3 微调	视频 LoRA 微调	1× RTX 4090（FastVideo LoRA）	2-4× A100 80GB	$2-10/h
Phase 4	数据 + 评测 + 重新微调	2× A100 40GB	2-4× A100 80GB	$2-10/h
Phase 5 VAE	训练 3D-VAE	4× A100 80GB	8× A100 80GB	$10-30/h
Phase 5 全量	从头训练视频 DiT	8× A100 80GB	8-64× H100	$20-100+/h
商用级	Seedance 级别	64× H100	256-1000× H100	$200K-1M+ 总计

视频大模型边学边做

视频生成模型架构全景

文本编码器

VAE / 视频 Tokenizer

去噪骨干网络

扩散调度器

条件控制模块

训练基础设施

基础入门 — 把训练循环吃透

动手实践

跑通一个最小 PyTorch 训练脚本

跟 Karpathy 课程手写 micrograd + makemore

图像扩散 — 你的第一个生成模型

动手实践

用 Diffusers 训练图像 DDPM

LoRA 微调 Stable Diffusion

视频模型 — 先跑推理，再做微调

动手实践

本地跑通 Wan2.1 1.3B 推理

训练一个视频 LoRA

数据 + 评测 — 从「会跑 demo」到真正的能力

动手实践

自己做一个小型视频数据集

做一套固定评测集 + 接入 VBench

用自建数据重新做一次视频微调

规模化训练 + 商用化

模型推理加速

视频数据飞轮

可控性：ControlNet + IP-Adapter

内容安全 + 合规

动手实践（进阶路线）

训练自己的 3D-VAE

从头训练完整视频 DiT

做一个商用化雏形

核心概念速查（点击展开）

Diffusion Model（扩散模型）

DiT（Diffusion Transformer）

3D-VAE（视频变分自编码器）

Flow Matching / Rectified Flow

LoRA（Low-Rank Adaptation）

Classifier-Free Guidance (CFG)

Attention（注意力机制）

自回归扩散混合（AR + Diffusion）

世界模型（World Models）

Step Distillation（步数蒸馏）

分布式训练（DeepSpeed / FSDP）

商用 License 对比（上线前必看）

硬件 & 算力指南

推荐云 GPU 平台

必读论文清单（按优先级排序）

日常工具 & 社区

视频大模型
边学边做