从 TTRL 到 URLVR：大模型的无监督强化学习还能走多远？

清华大学博士生

视频号

演示文稿 (PPT)

直播配套幻灯片

暂未提供

强化学习正在重塑大模型能力边界。OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型都在用大规模 RLVR（可验证奖励强化学习）刷新推理任务的天花板。

但所有人都知道，纯监督式训练不可持续。人工标注成本指数级增长，在专业领域获取可靠标注越来越难。当模型能力逼近甚至超越人类专家时，谁来给它打分？

从 TTRL 开始，无监督 RLVR（Unsupervised RLVR）应运而生，让模型在没有人工标注的情况下持续进化。这不仅是降本增效的需求，更是通往超级智能的必经之路。

就像预训练用无标注数据 training 出了 GPT，无监督 RLVR 能否延续这一奇迹？

4月27日（周一）晚8点，青稞Talk 第122期，清华大学博士生何秉翔，将直播分享《从 TTRL 到 URLVR：大模型的无监督强化学习还能走多远？》。

何秉翔，清华大学博士生，导师为清华大学刘知远教授。研究方向为大模型对齐与强化学习，曾在 ACL、ICML、NeurIPS 等人工智能国际顶级会议发表论文，谷歌学术引用量超1700次。

从 TTRL 到 URLVR：大模型的无监督强化学习还能走多远？

1、无监督 RLVR 全景图：内在 vs 外部奖励分类
2、内在奖励的宿命：rise-then-fall 与置信度陷阱
3、安全区与快速诊断：哪些场景下内在奖励仍然有效？
4、突破天花板：如何走向真正可扩展的无监督 RLVR？
5、AMA（Ask Me Anything)环节

10月25日(周六)10:00 - 11:00