LightX2V:AI视频创作迈入实时生成时代
就在刚刚,HunyuanVideo 1.5模型正式开源,其官方页面展示了LightX2V视频生成推理框架作为首发支持方案,助力该模型在消费级显卡上实现秒级视频生成。
LightX2V源自ModelTC Github社区,其LightLLM、LightCompress等项目曾在大模型压缩和推理社区被很多框架借鉴使用,今天让我们一同起底LightX2V的技术内核。
🌟 引爆社区的"神秘组织"
今年上半年以来,一个名为LightX2V的开源项目及其推出的视频生成4步蒸馏模型,在ComfyUI社区迅速蹿红,到目前累计下载量超过350万次。
社区玩家积极探索其加速视频创作的潜力,甚至在 Reddit 上引发热烈讨论。一位国外网友在得知模型即将上传时,激动地发帖表示:"不睡了,坐等更新!"

顺着开源的Huggingface和GitHub,可以发现4步蒸馏只是 LightX2V 技术图景的冰山一角。一个面向低成本、强实时的视频生成推理全栈技术拼图正逐渐浮出水面:
- 全栈推理框架:低比特量化、稀疏注意力、多卡通信优化、高效 Offloading等。
- 轻量化算法创新:极强通用性的步数蒸馏与极致轻量级VAE,带来10倍以上性能提升。
- 生态与硬件支持:集成ComfyUI,并支持寒武纪、沐曦等多款国产化AI芯片。
复合以上技术,LightX2V主页显示其已经可以在5090这样的消费级显卡上,实现5秒内生成5s视频,打开了世界模型通往强实时交互的大门。
GitHub地址:https://github.com/ModelTC/LightX2V
Hugging Face地址:https://huggingface.co/lightx2v
组织主页:https://light-ai.top
⚡️ 性能优化"组合拳":低成本实时视频生成
当前,如Sora2等商业视频生成应用,生成5到10秒的视频仍需几分钟甚至10分钟不等。LightX2V团队通过一系列创新技术的组合应用,打破性能瓶颈,在消费级显卡实现强实时生成,即生成5s视频所需时间小于5s。
1. 算法层面:双核驱动极致加速
- Phased DMD 步数蒸馏:原创设计的步数蒸馏算法Phased DMD,在4步推理下实现了视频生成一致性和动态性的显著提升。该技术所产出的Wan2.1/Qwen-Image等少步模型,登上HuggingFace趋势榜前10,累计下载量超过358万次。
- LightVAE 轻量级 VAE:针对行业内极致轻量级VAE的空白,LightX2V发布了LightVAE、LightTAE系列模型。相比原始VAE方案,实现了高达10倍以上的性能提升,同时最大限度地保持了高清画质。
| Model | Encode Speed | Decode Speed | Encode Memory | Decode Memory |
|---|---|---|---|---|
| Wan21 VAE | 4.1721 s | 5.4649 s | 8.4954 GB | 10.1287 GB |
| LightVAE | 1.5014 s | 2.0697 s | 4.7631 GB | 5.5673 GB |
| LightTAE | 0.3956 s | 0.2463 s | 0.00858 GB | 0.41199 GB |
2. 工程层面:释放硬件潜能,降低部署门槛
通过步数蒸馏、低比特量化、稀疏注意力、特征缓存和张量卸载等技术的综合应用,LightX2V 将:
- 显存门槛降至8GB以下(入门级消费卡即可运行)。
- 生成速度上限提升至1:1实时(即5秒视频仅需5秒以内完成生成)。

上图展示了LightX2V的整体架构,低比特量化、稀疏注意力、Offloading、多卡通信优化、特征缓存等等技术,覆盖了模型、调度、计算、存储和通信5个维度的全栈优化,保障了LightX2V的低成本、强实时属性,LightX2V官方提供的文档,也提供了所有相关技术的详细介绍,并每周更新领域内最新的论文集。
| 技术 | 意义 | 目标场景 |
|---|---|---|
| 低比特算子 (MXFP8/MXFP6/NVFP4) | 释放硬件计算潜力,加速计算 | 通用加速 |
| 稀疏注意力算子 | 挖掘视频生成计算的稀疏特性,减少冗余 | 通用加速 |
| 特征缓存技术 | 减少重复计算,进一步节省计算资源 | 通用提速 |
| 延迟隐藏的3级卸载 (Offloading) | 8GB显存可推28B MOE大模型,实现低成本部署 | 低成本场景 |
| 多卡并行通信优化 | 以接近线性加速比实现5090消费级显卡的强实时目标 | 强实时场景 |
图片和视频展示了各类技术带来的加速收益,及加速后生成的视频效果情况。

加速前效果
加速后效果
🌎 打通应用-模型-硬件,构建全面生态
LightX2V 不仅在技术上追求极致,更在生态建设上实现了广泛的覆盖,致力于打通从模型、应用到硬件的全链路。
*️⃣ 模型生态:全面支持主流视频生成与世界模型
LightX2V已支持主流视频生成模型如Wan2.1/2.2、CogVideo1.5,以及最新发布的 HunyuanVideo1.5,并提供极速性能优化。同时,它还支持Matrix Game等一系列用于游戏和自动驾驶场景的世界模型。
*️⃣ 应用生态:深度融入ComfyUI
LightVAE等核心模块已被纳入ComfyUI官方社区,打通了ComfyUI的生态节点,极大地便利了社区用户的集成和使用。
*️⃣ 硬件生态:拥抱国产化芯片
LightX2V不仅支持NVIDIA消费级显卡(3060/4090/5090)和数据中心显卡(A100/A800/H100/H800/H200),更引入了对国产芯片的支持,包括寒武纪MLU 590、沐曦C500等,真正实现了视频生成模型的全国产化部署能力。
💡 从个人创作自由到企业级服务部署
LightX2V 提供了一套完整的解决方案,以满足个人用户、个人开发者和企业用户的差异化需求。
- 👤 个人开发者:仅需一台带有显卡的个人笔记本电脑,即可快速启动带有前端界面的本地视频生成应用,轻松实现视频生成自由。
- 🏢 企业用户:可通过LightX2V的端到端服务化解决方案,一键完成对外应用和服务的搭建,实现大规模服务化集群部署。
- 🖥️ 个人用户:可直接访问LightX2V提供的网页版使用入口,即刻体验极速生成的魅力。

从视频生成到世界模型,LightX2V正在以工程优化和算法创新的极致协同,为这一兼具娱乐休闲、内容创作和生产力工具属性的领域按下加速键,推动其快速向前发展。