RLinf-USER：面向现实世界机器人在线策略学习的统一且可扩展系统

发布于 2026-03-09
·
117 次阅读
·
·

直播回放

臧宏之

清华大学交叉信息研究院本科生

直播平台

视频号

YouTube

哔哩哔哩

相关资源

演示文稿 (PPT)

直播配套幻灯片

暂未提供

USER 是在 RLinf 上搭建的一套面向现实世界在线策略学习的统一且可扩展的系统。

USER, a Unified and extensible SystEm for Real-world online policy learning

在系统上，它建立了统一的硬件抽象层、自适应通信平面以解决硬件管理和通信问题。

The system architecture design of USER

算法侧，它搭建了全异步学习框架，设计了持久化、缓存感知的缓冲区，并提供了奖励函数、算法与策略的可扩展接口。

Overview of learning framework design：a fully asynchronous real-world learning pipeline with a persistent, cache-aware buffer and extensible abstractions for policies, algorithms, and reward models.

Fully Asynchronous pipeline. USER decouples data generation, training, data transmission, and weight synchronization, significantly improving both data collection and training throughput

Persistent-Cache-Aware Buffer. USER adopts a persistent, index-based buffer. Recent data is stored in memory while historical data is persisted to disk, effectively balancing access efficiency with storage capacity

实验结果表明，USER 能够支持多机器人和异构机械臂同时训练、端云协同以及异步训练，为现实世界在线策略学习提供了统一且可扩展的系统基础。

Code: https://github.com/RLinf/RLinf
论文链接：https://arxiv.org/abs/2602.07837

3月10日（周二）晚8点，青稞Talk 第111期，RLinf 核心开发人员、清华大学本科生臧宏之，将再次分享《RLinf-USER：面向现实世界机器人在线策略学习的统一且可扩展系统》。

分享嘉宾

臧宏之，清华大学交叉信息研究院本科生，研究兴趣在强化学习与机器人学习。RLinf 强化学习框架 VLA 部分和真机部分的核心开发人员之一。

主题提纲

RLinf-USER：面向现实世界机器人在线策略学习的统一且可扩展系统

1、现实世界机器人进行策略学习的难点
2、RLinf-USER 的核心设计
- 系统层：统一硬件抽象 + 自适应通信
- 算法层：全异步框架 + 可扩展接口
3、RLinf-USER 的实验验证
4、AMA （Ask Me Anything）

直播时间

3月10日20:00 - 21:00