每个阶段都有理论和动手,不是学完再练
PyTorch → 图像扩散 → 视频推理+微调 → 数据+评测 → 规模化+商用
先看全景,知道你最终要理解什么组件。每个 Phase 会逐步深入其中一块。
不要只看视频,要亲手写。目标:理解参数、loss、反向传播、训练循环这套「共通语言」。
前 Tesla AI 总监的大师课。从零手写反向传播,一路到微型 GPT。真正把神经网络、训练过程和 Transformer「吃透」的最佳材料。
Jay Alammar 的经典图文。Transformer 是 DiT 的核心,不理解 Self-Attention 就无法理解现代视频模型。
不管是 MNIST 分类还是最简单的回归——关键是你亲手写 DataLoader → forward → loss → backward → step 的完整循环,看到 loss 下降曲线,保存 checkpoint。
手写反向传播引擎(micrograd),手写字符级语言模型(makemore)。这两个练完,你对训练过程的理解就不再是黑盒。
阶段产出:能看懂训练日志(loss、lr、step),能改超参数看到效果变化,能用 PyTorch 从零写训练循环。如果你已有这些能力,直接跳 Phase 2。
视频模型本质是在图像扩散之上加时间维度。先用图像建立扩散直觉,再扩展到视频。
最好的扩散模型入门实践课程。从零实现 DDPM,用 diffusers 库训练你的第一个扩散模型。带代码、作业。
现代扩散模型的奠基论文。理解前向加噪、反向去噪、噪声预测网络。所有视频模型都基于此。
在潜空间做扩散而不是像素空间。这是 Stable Diffusion 的基础,也是所有现代视频模型的核心思路。
Meta 的 DiT,用 Transformer 替代 U-Net 做去噪。这是 Sora、Wan2.1、SeedDance 等现代视频模型的架构基础。
Flow Matching / Rectified Flow,比传统 DDPM 更高效的训练范式。新一代视频模型(如 Wan2.1)普遍采用。
Vision Transformer,将图像分割成 patch 当 token 处理。DiT 的直接前身,理解 DiT 之前先理解 ViT。
从 Hugging Face diffusers 的 training example 出发,在小数据集(CIFAR-10 / Pokemon)上训练一个简单的 DDPM。理解训练循环、噪声调度、采样过程。
学会 LoRA(Low-Rank Adaptation)微调。在自己的数据集上训练人物/风格 LoRA。这是你第一次真正理解「生成模型怎么训、怎么评」。
阶段产出:一组固定 prompt 的图像生成结果(训练前 vs 训练后 vs LoRA)。你已经走完「图像扩散闭环」——理论 + 训练 + 评估。
不要一上来读全仓库。先跑 inference 建立手感,再做视频 LoRA,最后读架构。
OpenAI Sora 的技术思路。奠定了「视频 patch → DiT → 世界模拟器」的范式。开源模型已追平其水平。
最强开源视频模型(1.3B / 14B)。Wan2.2 新增 T2V-A14B、I2V、S2V(主体驱动视频)等多模态变体。DiT + Flow Matching + 3D-VAE,HuggingFace 下载量最高(145K+)。
腾讯出品,1.5 版优化至 8.3B 参数,推理速度提升 1.87x(SSTA 注意力)。Step Distillation 50→8 步,RTX 4090 可跑(14GB 起)。训练代码已开源。
OpenAI 的 CLIP,实现文本-图像对齐。视频模型用 CLIP/T5 来理解文本 prompt 和视觉内容的关系。到这个阶段你需要理解它。
北大出品,14B 自回归扩散模型,单卡 H100 实现 19.5 FPS 实时生成。支持分钟级长视频。蒸馏版仅需 6GB 显存。
Genmo 出品,10B 参数,Apache 2.0 许可。创新的 Asymmetric DiT(AsymmDiT)架构 + AsymmVAE(128x 压缩率)。
音视频联合扩散 Transformer,双流架构 + 跨模态对齐。方向最接近 Seedance 2.0 的「音画联合 + 导演级控制」。官方提供 trainer 支持 LoRA/全量微调。
阶跃星辰出品,30B 参数,当前最大开源视频模型。48 层 DiT + 3D Full Attention + RoPE,含 Turbo 蒸馏版。
目标不是出神片,而是理解 prompt、resolution、fps、seed、scheduler、负面提示这些变量对结果的影响。固定一组 prompt 建立你自己的「评测小基准」。
选择 Wan2.2 1.3B 或 HunyuanVideo 1.5,在垂直领域数据上做视频 LoRA 微调。只做一个窄目标:固定角色 / 品牌 / 风格 / 镜头动作。推荐使用 Finetrainers 或 FastVideo。每 200-500 step 做一次固定 prompt 验证,不要盲目长训。
阶段产出:before/after 对比页(LoRA 前 vs 后),一组固定 prompt 验证集的结果。你已经走完「视频微调闭环」——推理 + LoRA + 验证。
如果不做这一步,你会一直停留在「能跑通」。数据比模型技巧更重要,评测比主观感觉更可靠。
Hugging Face 官方视频模型微调框架。支持 Wan/CogVideoX 等模型的 LoRA / Control / 全参微调。从「会跑模型」到「会训模型」的关键桥梁。
支持 Wan2.2、HunyuanVideo 等模型的 LoRA/全参数微调,DMD2 蒸馏,FSDP2 + 序列并行,50x+ 去噪加速。
把素材切成短片段,统一长度/fps/分辨率,给每个 clip 写 caption,建立 metadata.csv。你会在这个项目里第一次真正理解「数据 > 模型技巧」。
覆盖人物动作、复杂镜头、动物、物理常识、文字、多人交互。每次模型更新都重跑。接入 VBench 做自动评测。
将 Phase 3 的视频 LoRA 换成自建数据重新训练,对比效果。这是你第一次体验「数据飞轮」:数据质量 → 模型质量 → 发现数据问题 → 改数据。
阶段产出:metadata 文件 + 固定验证集 + VBench 报告 + 数据迭代前后的对比。你已经走完「评测闭环」——自有数据 + 自动评分 + 可复现结果。
当你已经有微调闭环和评测闭环,再进入大规模训练、推理加速和商用工程。
商用的核心是成本和延迟。需要掌握:Step Distillation(50→8 步,HunyuanVideo 1.5 已验证)、稀疏注意力(SSTA)、模型量化(INT8/FP8)、TensorRT 部署。FastVideo 实现 50x+ 去噪加速。
数据决定上限。需要构建:视频爬取/清洗流水线、自动标注系统(用 VLM 生成 caption)、数据质量评估、数据去重、美学评分过滤。百万到千万级视频-文本对。
商用需要精确控制。用户需要控制人物身份、动作、镜头、风格。训练 ControlNet、IP-Adapter、Reference-Net 等控制模块。
商用必须解决:NSFW 检测、人脸伪造检测、版权内容过滤、水印嵌入(C2PA 标准)、区域合规(GDPR、国内法规)。
Colossal-AI 团队,11B 模型仅 $200K 训练成本,VBench 上匹配 HunyuanVideo 和 Step-Video。最接近商用级别的开源参考。
北大团队主导,v1.5 含 WFVAE(小波频率 VAE,8x8x8 下采样)+ 稀疏 DiT(SUV 架构,35% 加速)。8B 模型匹配 HunyuanVideo 质量。
NVIDIA 出品,7B/14B 参数,物理感知的视频/世界生成。Text2World + Video2World,商用许可。代表了「视频即世界模拟」的新方向。
VAE 质量直接决定视频清晰度和时间一致性。参考 CogVideoX 和 Open-Sora-Plan 的 3D-VAE 实现,在视频数据上训练自己的 Video Tokenizer。
终极目标:从头训练一个完整的视频 DiT 模型。参考 Open-Sora 2.0(11B 模型仅 $200K 训练成本)。需要大规模数据(百万级视频-文本对)、分布式训练基础设施。
用户上传参考图/文本 → 任务队列 → 模型生成 → 存储输出 → 展示结果。接入内容审核 + 来源标记(C2PA),算清 GPU 成本和排队时延。
阶段产出:完整训练流水线 / 或商用 MVP。到这一步,你已经具备「能训练/微调/评估/部署视频模型」的完整能力。
遇到不懂的概念?这里帮你快速理解。
通过逐步加噪然后学会去噪来生成数据的模型。
用 Transformer 替代 U-Net 作为扩散模型的去噪骨干。
将视频从像素空间压缩到低维潜空间的编解码器。
比 DDPM 更高效的新一代扩散训练范式。
用极少量参数微调大模型的技术,显存和数据需求大幅降低。
让生成结果更忠实于文本提示的技巧。
输出 = 无条件预测 + guidance_scale × (有条件预测 - 无条件预测)让模型关注输入中最相关部分的核心机制。
2026 年新范式:将自回归生成与扩散去噪结合,实现实时长视频生成。
将视频生成重新定义为「世界模拟」,具备物理规律理解能力。
将扩散模型的 50+ 步推理压缩到 8-12 步,推理速度提升 5-10 倍。
多 GPU/多节点训练大模型的工程基础。
想做商用产品,不能只看效果。License 直接决定你能不能真正上线。
| 模型 | License | 商用建议 | 需要注意 |
|---|---|---|---|
| Wan2.1 / Wan2.2 | Apache-2.0 | 最推荐作为商用基座 | 上线前核对权重与依赖条款 |
| Mochi 1 | Apache-2.0 | 适合商用 + 研究 | 官方模型卡明确标注 Apache-2.0 |
| NVIDIA Cosmos | NVIDIA Open Model | 商用可用(需遵守条款) | 注意 NVIDIA 开放模型许可的具体限制 |
| CogVideoX | 自定义商用条款 | 学习优先,商用需登记 | 需注册 basic commercial license;>100万 MAU 需额外授权 |
| HunyuanVideo 1.5 | Tencent Community | 适合研究/学习 | 排除欧盟、英国、韩国;>100M MAU 需另行许可;禁止用输出改进其他 AI |
| LTX-2 | LTX-2 Community | 学音视频联合方向 | 年收入 ≥ $10M 的商业实体需购买付费商业许可 |
商用建议:如果目标明确是「未来可商用」,优先投入 Wan2.2 + 自有/明确授权数据 + 自建评测集 + 输出治理。CogVideoX 和 HunyuanVideo 先当学习对象,不当第一商用基座。
不同阶段需要的硬件配置参考
| 阶段 | 任务 | 最低 GPU | 推荐配置 | 预算参考(云) |
|---|---|---|---|---|
| Phase 1 | 学习、跑教程 | RTX 3060 12GB | RTX 4090 24GB | 按需租用,$0.3-1/h |
| Phase 2 | 图像扩散训练 + LoRA | RTX 4090 24GB | 1× A100 80GB | $1-2/h |
| Phase 3 推理 | 视频模型推理 | RTX 4090 24GB | 1× A100 80GB | $1-2/h |
| Phase 3 微调 | 视频 LoRA 微调 | 1× RTX 4090(FastVideo LoRA) | 2-4× A100 80GB | $2-10/h |
| Phase 4 | 数据 + 评测 + 重新微调 | 2× A100 40GB | 2-4× A100 80GB | $2-10/h |
| Phase 5 VAE | 训练 3D-VAE | 4× A100 80GB | 8× A100 80GB | $10-30/h |
| Phase 5 全量 | 从头训练视频 DiT | 8× A100 80GB | 8-64× H100 | $20-100+/h |
| 商用级 | Seedance 级别 | 64× H100 | 256-1000× H100 | $200K-1M+ 总计 |
这些论文构成了视频大模型的知识体系。建议按顺序阅读。
保持学习和跟踪前沿的工具