1. 首页
  2. 青稞Talk
  3. 直播预告!一起聊聊腾讯混元最新开源的 UniRL:面向统一多模态模型的分布式 RL 后训练框架

直播预告!一起聊聊腾讯混元最新开源的 UniRL:面向统一多模态模型的分布式 RL 后训练框架

  • 发布于 2026-06-11
  • ·
  • 21 次阅读
  • ·
  • ·
即将开始

直播平台

视频号

相关资源

演示文稿 (PPT)

直播配套幻灯片

暂未提供

目前多模态领域 RL 仍然缺少生成理解统一的 Infra。图像 / 视频的生成、理解,Prompt-Enhancer (PE),以及 HunyuanImage-3.0、Bagel 等 unified multimodal models,通常都需要各自维护 rollout、reward、advantage、train、weight-sync 逻辑。

UniRL 是腾讯混元团队最新开源的多模态统一强化学习框架,以同一条 RL 后训练回路——采样、奖励打分、优势计算、策略更新、权重回传——覆盖扩散、自回归、提示词增强与统一多模态四大模型领域,从而实现了one for all的支持。

目前 UniRL 已支持 SD3 / 3.5、Qwen-Image、Wan 系列、FLUX、HunyuanVideo、Qwen3、Qwen-VL、PE,以及 HunyuanImage-3.0 / Bagel 等模型,同时支持 SGLang / vLLM-omni rollout、FSDP2 训练以及独立的Reward Server模块。

UniRL 不仅能做 diffusion RL,也能做 LLM / VLM RL,以及 AR + diffusion 统一主干模型的联合 RL。

同时团队还开源了自研算法 Flow-DPPO 与 DRPO 以精确散度信任域取代比率裁剪, 分别改进流匹配模型与 LLM 的策略优化。

6 月 13 日上午 10 点青稞Talk 第 131 期,UniRL 作者、新加坡国立大学博士生吴林昱,将直播分享《UniRL:面向统一多模态模型的分布式 RL 后训练框架》。

Canvas – 951.png

分享嘉宾

吴林昱,新加坡国立大学(NUS)计算机科学在读博士,获校长研究生奖学金(PGF),师从 Jiaheng Zhang 教授;本科毕业于上海交通大学 ACM 班。现于腾讯参与多模态强化学习框架 UniRL 的研发,聚焦统一多模态模型(unified model)的 RL 后训练。曾以第一作者在顶会发表多篇论文,也曾在 UC Berkeley Dawn Song 教授课题组访问,研究去中心化 LLM 推理系统与 AI 安全。

主题提纲

UniRL:面向统一多模态模型的分布式 RL 后训练框架

1、RL 后训练进入统一多模态时代

2、UniRL 模块化与可组合架构解析

3、分布式 RL 系统设计与工程优化

4、核心算法:Flow-DPPO 与 DRPO

5、未来展望 & AMA (Ask Me Anything)环节

直播时间

6 月 13 日(周六)10:00 - 11:00

如何观看

Talk 将在青稞社区【视频号:青稞 AI】上进行进行直播,欢迎预约观看!

目录