随着文生图/视频及全模态模型快速落地,基于人类偏好与可验证信号的 RL 后训练已成为提升生成质量的关键手段。但与纯文本 LLM 不同,多模态生成 RL 在采样 rollout、reward 计算与分布式训练上的 I/O 与算力特征差异显著,亟需专门框架支撑。

VeRL-Omni 基于 VeRL及vLLM-Omni构建的面向多模态生成模型的开源 RL 后训练框架,由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。
代码: https://github.com/verl-project/verl-omni
文档: https://verl-omni.readthedocs.iovLLM
官方博客:https://vllm.ai/blog/verl-omni

6月23日(周二)晚8点,青稞Talk 第133期,vLLM-Omni 和 VeRL-Omni 开源社区的核心贡献者黄永祥,将直播分享 VeRL-Omni。
分享内容涵盖系统架构与核心设计:高效的多模态 rollout、异步multi-reward serving、模块化训练后端(FSDP2/VeOmni),以及 rollout correction 等稳定性工具;
同时,嘉宾还将结合 Qwen-Image等模型上的 FlowGRPO、DiffusionNFT 等算法实践与 benchmark 经验(相对 diffusers 方案约 20% 端到端吞吐提升),帮助大家理解如何高效、稳定地开展多模态生成 RL 训练。
分享嘉宾
黄永祥,香港科技大学博士,华为莱布尼茨研究所Research Scientist,vLLM-Omni和VeRL-Omni开源社区核心贡献者,目前研究方向为多模态大模型的高性能推理及RL后训练
主题提纲
VeRL-Omni:基于 VeRL 及 vLLM-Omni 构建的面向多模态生成模型的高效RL后训练框架
1、多模态生成 RL Infra 的挑战
2、VeRL-Omni 的系统架构与核心设计
- 高效的多模态 rollout、异步multi-reward serving
- 模块化训练后端(FSDP2/VeOmni)、 rollout correction
3、Qwen-Image 的 FlowGRPO、DiffusionNFT 算法实践
4、 benchmark 经验分享
5、后续路线图 & AMA (Ask Me Anything)环节
直播时间
6月23日(周二)20:00 - 21:00