USER 是在 RLinf 上搭建的一套面向现实世界在线策略学习的统一且可扩展的系统。

在系统上,它建立了统一的硬件抽象层、自适应通信平面以解决硬件管理和通信问题。

算法侧,它搭建了全异步学习框架,设计了持久化、缓存感知的缓冲区,并提供了奖励函数、算法与策略的可扩展接口。



实验结果表明,USER 能够支持多机器人和异构机械臂同时训练、端云协同以及异步训练,为现实世界在线策略学习提供了统一且可扩展的系统基础。
Code: https://github.com/RLinf/RLinf
论文链接:https://arxiv.org/abs/2602.07837
3月10日(周二)晚8点,青稞Talk 第111期,RLinf 核心开发人员、清华大学本科生臧宏之,将再次分享《RLinf-USER:面向现实世界机器人在线策略学习的统一且可扩展系统》。
分享嘉宾
臧宏之,清华大学交叉信息研究院本科生,研究兴趣在强化学习与机器人学习。RLinf 强化学习框架 VLA 部分和真机部分的核心开发人员之一。
主题提纲
RLinf-USER:面向现实世界机器人在线策略学习的统一且可扩展系统
1、现实世界机器人进行策略学习的难点
2、RLinf-USER 的核心设计
- 系统层:统一硬件抽象 + 自适应通信
- 算法层:全异步框架 + 可扩展接口
3、RLinf-USER 的实验验证
4、AMA (Ask Me Anything)
直播时间
3月10日20:00 - 21:00