直播预告！一起聊聊腾讯混元最新开源的 UniRL：面向统一多模态模型的分布式 RL 后训练框架

发布于 2026-06-11
·
21 次阅读
·
·

即将开始

吴林昱

新加坡国立大学(NUS)计算机科学在读博士

直播平台

视频号

相关资源

演示文稿 (PPT)

直播配套幻灯片

暂未提供

目前多模态领域 RL 仍然缺少生成理解统一的 Infra。图像 / 视频的生成、理解，Prompt-Enhancer (PE)，以及 HunyuanImage-3.0、Bagel 等 unified multimodal models，通常都需要各自维护 rollout、reward、advantage、train、weight-sync 逻辑。

UniRL 是腾讯混元团队最新开源的多模态统一强化学习框架，以同一条 RL 后训练回路——采样、奖励打分、优势计算、策略更新、权重回传——覆盖扩散、自回归、提示词增强与统一多模态四大模型领域，从而实现了one for all的支持。

目前 UniRL 已支持 SD3 / 3.5、Qwen-Image、Wan 系列、FLUX、HunyuanVideo、Qwen3、Qwen-VL、PE，以及 HunyuanImage-3.0 / Bagel 等模型，同时支持 SGLang / vLLM-omni rollout、FSDP2 训练以及独立的Reward Server模块。

UniRL 不仅能做 diffusion RL，也能做 LLM / VLM RL，以及 AR + diffusion 统一主干模型的联合 RL。

同时团队还开源了自研算法 Flow-DPPO 与 DRPO 以精确散度信任域取代比率裁剪, 分别改进流匹配模型与 LLM 的策略优化。

6 月 13 日上午 10 点，青稞Talk 第 131 期，UniRL 作者、新加坡国立大学博士生吴林昱，将直播分享《UniRL：面向统一多模态模型的分布式 RL 后训练框架》。

Canvas – 951.png

分享嘉宾

吴林昱，新加坡国立大学(NUS)计算机科学在读博士，获校长研究生奖学金(PGF)，师从 Jiaheng Zhang 教授；本科毕业于上海交通大学 ACM 班。现于腾讯参与多模态强化学习框架 UniRL 的研发，聚焦统一多模态模型(unified model)的 RL 后训练。曾以第一作者在顶会发表多篇论文，也曾在 UC Berkeley Dawn Song 教授课题组访问，研究去中心化 LLM 推理系统与 AI 安全。

主题提纲

UniRL：面向统一多模态模型的分布式 RL 后训练框架

1、RL 后训练进入统一多模态时代

2、UniRL 模块化与可组合架构解析

3、分布式 RL 系统设计与工程优化

4、核心算法：Flow-DPPO 与 DRPO

5、未来展望 & AMA （Ask Me Anything）环节

直播时间

6 月 13 日(周六)10:00 - 11:00

如何观看

Talk 将在青稞社区【视频号：青稞 AI】上进行进行直播，欢迎预约观看！