1. 首页
  2. 青稞Talk
  3. 线性轨迹:揭示 LLM 强化学习中的高效捷径

线性轨迹:揭示 LLM 强化学习中的高效捷径

  • 发布于 2026-02-26
  • 70 次阅读

直播平台

哔哩哔哩

视频号

YouTube

相关资源

演示文稿 (PPT)

直播配套幻灯片

下载

LLM RL 训练轨迹竟然是线性的?Miaow Lab 最新工作:无需继续训练,直接“预测”未来模型!

研究发现,在RLVR训练过程中,LLM的权重和输出概率演化呈现出显著的线性特征,理论分析发现,这源于低学习率、大Batch Size及Adam优化器的特性。说明昂贵的RLVR存在大量冗余计算。

基于此,Miaow Lab团队提出了利用线性外推来预测未来参数的策略。实验表明,该方法通过“RL校准方向”与“权重外推”交替进行,不仅将训练速度提升了6.1倍,还带来了3%的性能增益。

Miaow Lab的研究不仅揭示了RLVR的内部原理,并提出了极具性价比的推理模型复现方案。

3月3日(周二)晚8点,青稞社区和减论平台将联组织 #青稞Talk 第109期,香港城市大学数据科学系博士生王天乐,将直播分享《线性轨迹:揭示 LLM 强化学习中的高效捷径》。

分享嘉宾

王天乐,香港城市大学数据科学系博士生,导师为苗宁教授,研究方向为大语言模型推理。本科毕业于北京邮电大学,后在香港大学MPhil毕业。在IJCAI、WSDM等会议参与发表论文。

主题提纲

线性轨迹:揭示 LLM 强化学习中的高效捷径

1、在多种 RL 算法的发现:RLVR 训练是“线性”的?

2、线性轨迹核心原理解析

3、从“外推”到“交替训练”:线性外推策略实现

4、AMA (Ask Me Anything)环节

直播时间

3月3日(周二)20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行进行直播,欢迎预约观看!

Bilibili 直播间:
https://live.bilibili.com/32145701