视频大模型
边学边做

每个阶段都有理论和动手,不是学完再练
PyTorch → 图像扩散 → 视频推理+微调 → 数据+评测 → 规模化+商用

Diffusion Models Transformer / DiT VAE / Tokenizer CLIP / T5 视频数据工程 分布式训练 LoRA 微调 Wan2.2 / HunyuanVideo 1.5 / Helios
↓ 向下滚动开始学习

视频生成模型架构全景

先看全景,知道你最终要理解什么组件。每个 Phase 会逐步深入其中一块。

文本编码器

  • CLIP Text Encoder(OpenAI)
  • T5-XXL(Google,11B 参数)
  • 将文字 prompt 编码为语义向量
  • 决定了模型理解指令的能力上限

VAE / 视频 Tokenizer

  • 将视频帧压缩到潜空间(Latent Space)
  • 3D-VAE:同时压缩空间+时间维度
  • CausalConv3D:因果卷积保证时序一致
  • 压缩比通常 8x8(空间)x 4(时间)

去噪骨干网络

  • 当前主流:DiT(Diffusion Transformer)
  • 新趋势:自回归扩散混合(Helios、HiAR)
  • 全注意力机制处理时空 token
  • 参数规模 1B ~ 30B

扩散调度器

  • DDPM / DDIM / Flow Matching
  • 控制噪声添加和去除的过程
  • Rectified Flow(直线流)更高效
  • Step Distillation:50步→8步推理加速

条件控制模块

  • Cross-Attention:文本条件注入
  • ControlNet:姿态/深度/边缘控制
  • IP-Adapter:图像参考风格迁移
  • Camera Control:镜头运动控制

训练基础设施

  • 多 GPU / 多节点分布式训练
  • DeepSpeed ZeRO / FSDP
  • 混合精度 BF16 / FP16
  • 梯度检查点(节省显存)

基础入门 — 把训练循环吃透

不要只看视频,要亲手写。目标:理解参数、loss、反向传播、训练循环这套「共通语言」。

课程 ★★★ 入门

Karpathy — Neural Networks: Zero to Hero

前 Tesla AI 总监的大师课。从零手写反向传播,一路到微型 GPT。真正把神经网络、训练过程和 Transformer「吃透」的最佳材料。

手写代码必学免费
课程 ★★★ 入门

PyTorch 官方 60 分钟入门

快速上手 PyTorch:Tensor 操作、自动微分、构建神经网络。整个视频大模型生态都建立在 PyTorch 之上。

PyTorch动手必学
必读 ★★★ 入门

The Illustrated Transformer

Jay Alammar 的经典图文。Transformer 是 DiT 的核心,不理解 Self-Attention 就无法理解现代视频模型。

Transformer图文教程必读

动手实践

跑通一个最小 PyTorch 训练脚本

⏱ 第 1 周

不管是 MNIST 分类还是最简单的回归——关键是你亲手写 DataLoader → forward → loss → backward → step 的完整循环,看到 loss 下降曲线,保存 checkpoint。

跟 Karpathy 课程手写 micrograd + makemore

⏱ 第 2-3 周

手写反向传播引擎(micrograd),手写字符级语言模型(makemore)。这两个练完,你对训练过程的理解就不再是黑盒。

阶段产出:能看懂训练日志(loss、lr、step),能改超参数看到效果变化,能用 PyTorch 从零写训练循环。如果你已有这些能力,直接跳 Phase 2。

图像扩散 — 你的第一个生成模型

视频模型本质是在图像扩散之上加时间维度。先用图像建立扩散直觉,再扩展到视频。

课程 ★★★ 中级

Hugging Face — Diffusion Models 课程

最好的扩散模型入门实践课程。从零实现 DDPM,用 diffusers 库训练你的第一个扩散模型。带代码、作业。

Diffusion动手必学免费
论文 ★★★ 中级

DDPM — Denoising Diffusion Probabilistic Models

现代扩散模型的奠基论文。理解前向加噪、反向去噪、噪声预测网络。所有视频模型都基于此。

DDPM必读扩散基础
论文 ★★ 中级

LDM / Stable Diffusion — Latent Diffusion Models

在潜空间做扩散而不是像素空间。这是 Stable Diffusion 的基础,也是所有现代视频模型的核心思路。

LDM潜空间重要
论文 ★★★ 进阶

DiT — Scalable Diffusion Models with Transformers

Meta 的 DiT,用 Transformer 替代 U-Net 做去噪。这是 Sora、Wan2.1、SeedDance 等现代视频模型的架构基础。

DiT核心架构必读
论文 进阶

Flow Matching for Generative Modeling

Flow Matching / Rectified Flow,比传统 DDPM 更高效的训练范式。新一代视频模型(如 Wan2.1)普遍采用。

Flow Matching新范式重要
论文 中级

Classifier-Free Guidance (CFG)

如何让生成结果更好地遵循文本指令?CFG 是关键技巧,理解 guidance scale 的工作原理。

CFG训练技巧必学
论文 中级

ViT — An Image is Worth 16x16 Words

Vision Transformer,将图像分割成 patch 当 token 处理。DiT 的直接前身,理解 DiT 之前先理解 ViT。

ViTDiT前身按需精读

动手实践

用 Diffusers 训练图像 DDPM

⏱ 1-2 周 · GPU: 单卡 A100/4090

从 Hugging Face diffusers 的 training example 出发,在小数据集(CIFAR-10 / Pokemon)上训练一个简单的 DDPM。理解训练循环、噪声调度、采样过程。

LoRA 微调 Stable Diffusion

⏱ 1-2 周 · GPU: 单卡 24GB+

学会 LoRA(Low-Rank Adaptation)微调。在自己的数据集上训练人物/风格 LoRA。这是你第一次真正理解「生成模型怎么训、怎么评」。

阶段产出:一组固定 prompt 的图像生成结果(训练前 vs 训练后 vs LoRA)。你已经走完「图像扩散闭环」——理论 + 训练 + 评估。

视频模型 — 先跑推理,再做微调

不要一上来读全仓库。先跑 inference 建立手感,再做视频 LoRA,最后读架构。

论文 ★★★ 进阶

Sora 技术报告 — Video as World Simulators

OpenAI Sora 的技术思路。奠定了「视频 patch → DiT → 世界模拟器」的范式。开源模型已追平其水平。

Sora范式定义必读
开源模型 ★★★ · 主线 进阶

Wan2.1 / Wan2.2 — 阿里万相视频大模型

最强开源视频模型(1.3B / 14B)。Wan2.2 新增 T2V-A14B、I2V、S2V(主体驱动视频)等多模态变体。DiT + Flow Matching + 3D-VAE,HuggingFace 下载量最高(145K+)。

开源DiT必学生态最全
开源模型 进阶

CogVideoX — 智谱视频生成模型

清华智谱出品,2B/5B 参数,完整的 3D-VAE + 3D 因果注意力 DiT。代码清晰,适合学习架构设计。

开源3D VAE学习友好
开源模型 进阶

HunyuanVideo 1.5 — 腾讯混元视频

腾讯出品,1.5 版优化至 8.3B 参数,推理速度提升 1.87x(SSTA 注意力)。Step Distillation 50→8 步,RTX 4090 可跑(14GB 起)。训练代码已开源。

开源8.3B消费级可跑训练代码
论文 中级

CLIP — Learning Transferable Visual Models

OpenAI 的 CLIP,实现文本-图像对齐。视频模型用 CLIP/T5 来理解文本 prompt 和视觉内容的关系。到这个阶段你需要理解它。

CLIP多模态重要
论文 进阶

Seedance 1.0 技术报告

字节跳动 Seedance 的技术思路。探索视频生成模型的边界,了解工业级视频模型的技术方案。

Seedance字节工业级
开源模型 · 2026 NEW 进阶

Helios — 实时长视频生成(2026.3)

北大出品,14B 自回归扩散模型,单卡 H100 实现 19.5 FPS 实时生成。支持分钟级长视频。蒸馏版仅需 6GB 显存。

实时生成自回归扩散长视频突破性
开源模型 · 2025 进阶

Mochi 1 — Genmo 10B 模型

Genmo 出品,10B 参数,Apache 2.0 许可。创新的 Asymmetric DiT(AsymmDiT)架构 + AsymmVAE(128x 压缩率)。

Apache 2.010B新架构
开源模型 · 音视频联合 进阶

LTX-2 — 音视频联合 DiT 基座

音视频联合扩散 Transformer,双流架构 + 跨模态对齐。方向最接近 Seedance 2.0 的「音画联合 + 导演级控制」。官方提供 trainer 支持 LoRA/全量微调。

音视频联合官方trainer进阶方向
论文 进阶

Step-Video-T2V — 阶跃视频模型技术报告

阶跃星辰出品,30B 参数,当前最大开源视频模型。48 层 DiT + 3D Full Attention + RoPE,含 Turbo 蒸馏版。

30B训练策略数据工程

动手实践

本地跑通 Wan2.1 1.3B 推理

⏱ 1-2 周 · GPU: RTX 4090(仅需 8GB 显存)

目标不是出神片,而是理解 prompt、resolution、fps、seed、scheduler、负面提示这些变量对结果的影响。固定一组 prompt 建立你自己的「评测小基准」。

训练一个视频 LoRA

⏱ 2-3 周 · GPU: 2-4 × A100 80GB(或用 FastVideo 在 4090 上微调)

选择 Wan2.2 1.3B 或 HunyuanVideo 1.5,在垂直领域数据上做视频 LoRA 微调。只做一个窄目标:固定角色 / 品牌 / 风格 / 镜头动作。推荐使用 FinetrainersFastVideo。每 200-500 step 做一次固定 prompt 验证,不要盲目长训。

阶段产出:before/after 对比页(LoRA 前 vs 后),一组固定 prompt 验证集的结果。你已经走完「视频微调闭环」——推理 + LoRA + 验证。

数据 + 评测 — 从「会跑 demo」到真正的能力

如果不做这一步,你会一直停留在「能跑通」。数据比模型技巧更重要,评测比主观感觉更可靠。

评测 ★★★

VBench / VBench-2.0 — 视频生成评测

综合视频生成评测套件。VBench-2.0 覆盖人类保真度、可控性、创造力、物理一致性等维度。不要只靠主观感觉评价模型。

评测必须接入
数据集参考

OpenVid-1M — 公开视频数据集

公开视频数据集参考实现,适合理解视频数据组织、caption 和元数据结构。

数据工程参考样本
数据集参考

YouTube-Commons — CC-BY 视频数据

带 CC-BY 授权的视频数据源,带溯源信息。商用场景下数据授权至关重要。

CC-BY授权明确
工具 ★★★

Finetrainers — HF 视频微调工具

Hugging Face 官方视频模型微调框架。支持 Wan/CogVideoX 等模型的 LoRA / Control / 全参微调。从「会跑模型」到「会训模型」的关键桥梁。

视频微调官方工具
工具 ★★★

FastVideo — 视频 DiT 训练/推理框架

支持 Wan2.2、HunyuanVideo 等模型的 LoRA/全参数微调,DMD2 蒸馏,FSDP2 + 序列并行,50x+ 去噪加速。

训练框架蒸馏FSDP2

动手实践

自己做一个小型视频数据集

⏱ 2-3 周 · 100-1000 段视频片段

把素材切成短片段,统一长度/fps/分辨率,给每个 clip 写 caption,建立 metadata.csv。你会在这个项目里第一次真正理解「数据 > 模型技巧」。

做一套固定评测集 + 接入 VBench

⏱ 1-2 周 · 30-100 条固定提示词

覆盖人物动作、复杂镜头、动物、物理常识、文字、多人交互。每次模型更新都重跑。接入 VBench 做自动评测。

用自建数据重新做一次视频微调

⏱ 1-2 周

将 Phase 3 的视频 LoRA 换成自建数据重新训练,对比效果。这是你第一次体验「数据飞轮」:数据质量 → 模型质量 → 发现数据问题 → 改数据。

阶段产出:metadata 文件 + 固定验证集 + VBench 报告 + 数据迭代前后的对比。你已经走完「评测闭环」——自有数据 + 自动评分 + 可复现结果。

规模化训练 + 商用化

当你已经有微调闭环和评测闭环,再进入大规模训练、推理加速和商用工程。

工程

模型推理加速

商用的核心是成本和延迟。需要掌握:Step Distillation(50→8 步,HunyuanVideo 1.5 已验证)、稀疏注意力(SSTA)、模型量化(INT8/FP8)、TensorRT 部署。FastVideo 实现 50x+ 去噪加速。

蒸馏稀疏注意力FastVideo
数据

视频数据飞轮

数据决定上限。需要构建:视频爬取/清洗流水线、自动标注系统(用 VLM 生成 caption)、数据质量评估、数据去重、美学评分过滤。百万到千万级视频-文本对。

数据工程标注清洗
产品

可控性:ControlNet + IP-Adapter

商用需要精确控制。用户需要控制人物身份、动作、镜头、风格。训练 ControlNet、IP-Adapter、Reference-Net 等控制模块。

可控生成产品化重要
安全

内容安全 + 合规

商用必须解决:NSFW 检测、人脸伪造检测、版权内容过滤、水印嵌入(C2PA 标准)、区域合规(GDPR、国内法规)。

安全合规水印
参考项目

Open-Sora 2.0 — 11B 完整训练框架

Colossal-AI 团队,11B 模型仅 $200K 训练成本,VBench 上匹配 HunyuanVideo 和 Step-Video。最接近商用级别的开源参考。

训练框架$200K11B
参考项目

Open-Sora-Plan v1.5 — 北大开源计划

北大团队主导,v1.5 含 WFVAE(小波频率 VAE,8x8x8 下采样)+ 稀疏 DiT(SUV 架构,35% 加速)。8B 模型匹配 HunyuanVideo 质量。

WFVAE稀疏DiT8B
世界模型 · 2025 进阶

NVIDIA Cosmos — 世界基础模型

NVIDIA 出品,7B/14B 参数,物理感知的视频/世界生成。Text2World + Video2World,商用许可。代表了「视频即世界模拟」的新方向。

世界模型NVIDIA物理感知
工具

xDiT — DiT 推理并行引擎

视频 DiT 商用部署必备。推理并行化是从「能生成」到「能上线」的关键基础设施。HunyuanVideo 1.5 已集成。

推理并行部署
工具

FlashAttention

注意力算子优化,视频模型训练/推理性能的关键基础。几乎所有视频 DiT 都依赖 FlashAttention 加速。

算子优化必备

动手实践(进阶路线)

训练自己的 3D-VAE

⏱ 4-6 周 · GPU: 4-8 × A100

VAE 质量直接决定视频清晰度和时间一致性。参考 CogVideoX 和 Open-Sora-Plan 的 3D-VAE 实现,在视频数据上训练自己的 Video Tokenizer。

从头训练完整视频 DiT

⏱ 8-16 周 · GPU: 8-64+ × H100/A100

终极目标:从头训练一个完整的视频 DiT 模型。参考 Open-Sora 2.0(11B 模型仅 $200K 训练成本)。需要大规模数据(百万级视频-文本对)、分布式训练基础设施。

做一个商用化雏形

⏱ 最小闭环 API / Web Demo

用户上传参考图/文本 → 任务队列 → 模型生成 → 存储输出 → 展示结果。接入内容审核 + 来源标记(C2PA),算清 GPU 成本和排队时延。

阶段产出:完整训练流水线 / 或商用 MVP。到这一步,你已经具备「能训练/微调/评估/部署视频模型」的完整能力。

核心概念速查(点击展开)

遇到不懂的概念?这里帮你快速理解。

Diffusion Model(扩散模型)

通过逐步加噪然后学会去噪来生成数据的模型。

↓ 点击展开详情

前向过程:把一张干净图片逐步加高斯噪声,直到变成纯噪声(大约 1000 步)。

反向过程:训练一个神经网络,学会在每一步预测并去除噪声。推理时从纯噪声开始,逐步去噪就能生成新图片。

数学核心:损失函数 = 预测噪声与真实噪声的 MSE。非常简单但极其有效。

为什么强:比 GAN 稳定,比 VAE 质量高,可以自然引入各种条件控制。

DiT(Diffusion Transformer)

用 Transformer 替代 U-Net 作为扩散模型的去噪骨干。

↓ 点击展开详情

传统扩散模型用 U-Net(下采样 → 上采样 + skip connection),DiT 直接把图像/视频分成 patch,展平成 token 序列,用标准 Transformer 处理。

优势:Transformer 的 scaling law 更好,参数越大效果越好;全局注意力捕捉长程依赖。

时间步编码:使用 AdaLN-Zero(自适应层归一化),根据时间步 t 动态调整每层的 scale 和 shift。

在视频模型中:输入 token = 空间 patch × 时间帧数,全注意力或时空分离注意力。

3D-VAE(视频变分自编码器)

将视频从像素空间压缩到低维潜空间的编解码器。

↓ 点击展开详情

视频的原始数据量巨大(比如 720p × 30fps × 5s = 上亿像素)。直接在像素空间做扩散不现实。

3D-VAE 干什么:同时在空间(宽高)和时间(帧数)维度做压缩。比如 8×8 空间 + 4× 时间压缩,数据量缩小 256 倍。

CausalConv3D:因果 3D 卷积,确保编码第 N 帧时只看前面的帧,保证时序一致性。

关键指标:重建质量(PSNR/SSIM)、时间一致性(无闪烁)、压缩比。

Flow Matching / Rectified Flow

比 DDPM 更高效的新一代扩散训练范式。

↓ 点击展开详情

DDPM 的前向过程是随机的(加随机噪声),采样也需要很多步。

Flow Matching:学习一个从噪声到数据的确定性流场(ODE),训练时直接学习速度场。

Rectified Flow:进一步让流场尽量是直线路径(最短路径),这样采样时只需要很少的步数(5-25步 vs DDPM 的 50-1000 步)。

实际好处:训练更稳定、采样更快、推理成本更低。Wan2.1、SD3 等新模型都用了这个。

LoRA(Low-Rank Adaptation)

用极少量参数微调大模型的技术,显存和数据需求大幅降低。

↓ 点击展开详情

大模型全参数微调需要巨大显存。LoRA 的核心思路:权重变化量 ΔW 可以分解为两个低秩矩阵 A × B。

举例:一个 4096×4096 的矩阵有 1600 万参数,用 rank=64 的 LoRA 只需 4096×64 + 64×4096 = 52 万参数(仅 3%)。

在视频模型中:常用来微调特定风格、人物、动作类型。是商用化个性定制的关键技术。

Classifier-Free Guidance (CFG)

让生成结果更忠实于文本提示的技巧。

↓ 点击展开详情

训练时随机丢弃文本条件(比如 10% 概率用空 prompt)。推理时同时做有条件和无条件预测:

输出 = 无条件预测 + guidance_scale × (有条件预测 - 无条件预测)

guidance_scale 越大,生成越忠实于文本但多样性越低。通常设 7.5-12.5。

这是一个非常简单但效果显著的技巧,几乎所有扩散模型都用。

Attention(注意力机制)

让模型关注输入中最相关部分的核心机制。

↓ 点击展开详情

Self-Attention:Q、K、V 来自同一输入。视频模型中用来建模空间(像素间关系)和时间(帧间关系)依赖。

Cross-Attention:Q 来自图像/视频特征,K/V 来自文本 embedding。这是「文本控制生成」的核心机制。

在视频 DiT 中的变体:全时空注意力(Full Spatiotemporal)、时空分离注意力(先 Spatial-Attn 再 Temporal-Attn)。前者效果好但计算量大。

自回归扩散混合(AR + Diffusion)

2026 年新范式:将自回归生成与扩散去噪结合,实现实时长视频生成。

↓ 点击展开详情

传统扩散模型一次生成整个视频,长度受限。自回归扩散混合将视频切分为 chunk,逐块生成:

Helios(2026.3):14B 模型,每次自回归生成 33 帧,多尺度采样,无需 KV-cache 等传统加速就实现 19.5 FPS 实时生成。

HiAR(2026.3):提出「step-first」去噪顺序(先完成所有块的第一步去噪,再做第二步...),比传统「block-first」顺序更稳定,理论支持 200+ 分钟视频。

为什么重要:这是视频模型从「短片段生成」走向「无限长度实时生成」的关键突破。

世界模型(World Models)

将视频生成重新定义为「世界模拟」,具备物理规律理解能力。

↓ 点击展开详情

Sora 技术报告提出「视频作为世界模拟器」后,世界模型成为新研究方向:

NVIDIA Cosmos(2025):「World Foundation Models」,物理感知的视频生成,用于机器人和自动驾驶模拟。

Runway GWM-1(2025.12):通用世界模型,支持原生音频,定位视频为「下一代计算范式」。

与普通视频生成的区别:世界模型不只是生成好看的视频,而是要理解重力、碰撞、光影等物理规律,生成「真实世界的模拟」。

Step Distillation(步数蒸馏)

将扩散模型的 50+ 步推理压缩到 8-12 步,推理速度提升 5-10 倍。

↓ 点击展开详情

扩散模型推理需要多步去噪(通常 50-1000 步),很慢。Step Distillation 通过知识蒸馏大幅减少步数:

训练方式:用多步教师模型的输出指导少步学生模型,让学生用更少步数达到相同质量。

实际案例:HunyuanVideo 1.5 从 50 步压缩到 8-12 步(75% 加速),Step-Video-T2V-Turbo 10-15 步,FastVideo 实现 50x+ 去噪加速。

现状:2025-2026 年已成为视频模型部署的标准操作,是商用化的必备技术。

分布式训练(DeepSpeed / FSDP)

多 GPU/多节点训练大模型的工程基础。

↓ 点击展开详情

视频模型参数量 1B-30B+,单卡放不下。需要分布式训练:

数据并行:每卡一份模型,不同数据。最简单。
ZeRO(DeepSpeed):把优化器状态、梯度、参数分片存储在不同 GPU 上。ZeRO-1/2/3 分别分片不同内容。
FSDP(PyTorch 原生):类似 ZeRO-3,完全分片数据并行。
张量并行:把单个矩阵乘法拆分到多卡(Megatron-LM 风格)。
梯度检查点:用时间换空间,推理时重算中间结果而不存储,显存可节省 60%+。

商用 License 对比(上线前必看)

想做商用产品,不能只看效果。License 直接决定你能不能真正上线。

模型 License 商用建议 需要注意
Wan2.1 / Wan2.2 Apache-2.0 最推荐作为商用基座 上线前核对权重与依赖条款
Mochi 1 Apache-2.0 适合商用 + 研究 官方模型卡明确标注 Apache-2.0
NVIDIA Cosmos NVIDIA Open Model 商用可用(需遵守条款) 注意 NVIDIA 开放模型许可的具体限制
CogVideoX 自定义商用条款 学习优先,商用需登记 需注册 basic commercial license;>100万 MAU 需额外授权
HunyuanVideo 1.5 Tencent Community 适合研究/学习 排除欧盟、英国、韩国;>100M MAU 需另行许可;禁止用输出改进其他 AI
LTX-2 LTX-2 Community 学音视频联合方向 年收入 ≥ $10M 的商业实体需购买付费商业许可

商用建议:如果目标明确是「未来可商用」,优先投入 Wan2.2 + 自有/明确授权数据 + 自建评测集 + 输出治理。CogVideoX 和 HunyuanVideo 先当学习对象,不当第一商用基座。

硬件 & 算力指南

不同阶段需要的硬件配置参考

阶段 任务 最低 GPU 推荐配置 预算参考(云)
Phase 1 学习、跑教程 RTX 3060 12GB RTX 4090 24GB 按需租用,$0.3-1/h
Phase 2 图像扩散训练 + LoRA RTX 4090 24GB 1× A100 80GB $1-2/h
Phase 3 推理 视频模型推理 RTX 4090 24GB 1× A100 80GB $1-2/h
Phase 3 微调 视频 LoRA 微调 1× RTX 4090(FastVideo LoRA) 2-4× A100 80GB $2-10/h
Phase 4 数据 + 评测 + 重新微调 2× A100 40GB 2-4× A100 80GB $2-10/h
Phase 5 VAE 训练 3D-VAE 4× A100 80GB 8× A100 80GB $10-30/h
Phase 5 全量 从头训练视频 DiT 8× A100 80GB 8-64× H100 $20-100+/h
商用级 Seedance 级别 64× H100 256-1000× H100 $200K-1M+ 总计

推荐云 GPU 平台

  • AutoDL — 国内最便宜的 GPU 云,A100 约 ¥3-5/h
  • Featurize — 国内 GPU 租用平台,灵活
  • 恒源云 — 国内 GPU 共享平台
  • Lambda Labs — 海外性价比高,H100 $2-3/h
  • Vast.ai — 海外社区 GPU 市场,价格最低
  • RunPod — 海外按需 GPU,A100 约 $1.5/h

必读论文清单(按优先级排序)

这些论文构成了视频大模型的知识体系。建议按顺序阅读。

01
DDPM (2020) — 扩散模型奠基,必须理解的第一篇
02
Latent Diffusion Models (2022) — 潜空间扩散,Stable Diffusion 基础
03
DiT (2023) — Transformer 替代 U-Net,现代视频模型的架构基础
04
Flow Matching (2023) — 新一代训练范式,理解 Rectified Flow
05
Sora 技术报告 (2024) — 视频作为世界模拟器的范式
06
Wan 论文 (2025) — 最强开源视频套件的 VAE、预训练、数据策划全链路
07
CogVideoX 论文 (2024) — 3D causal VAE + expert transformer 的清晰参考
08
LoRA (2021) — 低秩微调,商用化个性定制的基础
09
Helios (2026) — 实时自回归扩散,长视频生成新范式
10
HunyuanVideo 论文 (2024) — 工业级视频基础模型的数据、架构、训练系统
11
Step-Video-T2V (2025) — 30B 超大规模视频模型的训练实践
12
LTX-2 (2025) — 音视频联合扩散 Transformer、双流架构

日常工具 & 社区

保持学习和跟踪前沿的工具

工具

Hugging Face

模型仓库、数据集、Spaces demo。所有开源视频模型都在这里发布权重。必须熟练使用。

工具

Weights & Biases (W&B)

训练实验追踪、可视化 loss 曲线、超参搜索。训练大模型必备。

工具

Papers with Code

论文 + 代码 + 榜单。追踪视频生成领域的 SOTA 和最新论文。

社区

Awesome Video Diffusion

GitHub 上最全的视频扩散模型论文和项目列表,持续更新。

社区

arXiv CS.CV

每天刷一下计算机视觉最新论文,保持对前沿的感知。