直播预告！聊聊 VeRL-Omni：基于VeRL及vLLM-Omni构建的面向多模态生成模型的开源 RL 后训练框架

随着文生图/视频及全模态模型快速落地，基于人类偏好与可验证信号的 RL 后训练已成为提升生成质量的关键手段。但与纯文本 LLM 不同，多模态生成 RL 在采样 rollout、reward 计算与分布式训练上的 I/O 与算力特征差异显著，亟需专门框架支撑。

VeRL-Omni 基于 VeRL及vLLM-Omni构建的面向多模态生成模型的开源 RL 后训练框架，由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。

代码： https://github.com/verl-project/verl-omni
文档： https://verl-omni.readthedocs.iovLLM
官方博客：https://vllm.ai/blog/verl-omni

6月23日（周二）晚8点，青稞Talk 第133期，vLLM-Omni 和 VeRL-Omni 开源社区的核心贡献者黄永祥，将直播分享 VeRL-Omni。

分享内容涵盖系统架构与核心设计：高效的多模态 rollout、异步multi-reward serving、模块化训练后端（FSDP2/VeOmni），以及 rollout correction 等稳定性工具；

同时，嘉宾还将结合 Qwen-Image等模型上的 FlowGRPO、DiffusionNFT 等算法实践与 benchmark 经验（相对 diffusers 方案约 20% 端到端吞吐提升），帮助大家理解如何高效、稳定地开展多模态生成 RL 训练。

黄永祥，香港科技大学博士，华为莱布尼茨研究所Research Scientist，vLLM-Omni和VeRL-Omni开源社区核心贡献者，目前研究方向为多模态大模型的高性能推理及RL后训练

VeRL-Omni：基于 VeRL 及 vLLM-Omni 构建的面向多模态生成模型的高效RL后训练框架

1、多模态生成 RL Infra 的挑战
2、VeRL-Omni 的系统架构与核心设计

高效的多模态 rollout、异步multi-reward serving
模块化训练后端（FSDP2/VeOmni）、 rollout correction
3、Qwen-Image 的 FlowGRPO、DiffusionNFT 算法实践
4、 benchmark 经验分享
5、后续路线图 & AMA （Ask Me Anything）环节

6月23日（周二）20:00 - 21:00