线性轨迹：揭示 LLM 强化学习中的高效捷径

研究发现，在RLVR训练过程中，LLM的权重和输出概率演化呈现出显著的线性特征，理论分析发现，这源于低学习率、大Batch Size及Adam优化器的特性。说明昂贵的RLVR存在大量冗余计算。

基于此，Miaow Lab团队提出了利用线性外推来预测未来参数的策略。实验表明，该方法通过“RL校准方向”与“权重外推”交替进行，不仅将训练速度提升了6.1倍，还带来了3%的性能增益。

Miaow Lab的研究不仅揭示了RLVR的内部原理，并提出了极具性价比的推理模型复现方案。

3月3日（周二）晚8点，青稞社区和减论平台将联组织 #青稞Talk 第109期，香港城市大学数据科学系博士生王天乐，将直播分享《线性轨迹：揭示 LLM 强化学习中的高效捷径》。

王天乐，香港城市大学数据科学系博士生，导师为苗宁教授，研究方向为大语言模型推理。本科毕业于北京邮电大学，后在香港大学MPhil毕业。在IJCAI、WSDM等会议参与发表论文。

线性轨迹：揭示 LLM 强化学习中的高效捷径

1、在多种 RL 算法的发现：RLVR 训练是“线性”的？

2、线性轨迹核心原理解析

3、从“外推”到“交替训练”：线性外推策略实现

4、AMA （Ask Me Anything）环节

3月3日(周二)20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号：青稞AI、Bilibili：青稞AI】上进行进行直播，欢迎预约观看！

Bilibili 直播间：
https://live.bilibili.com/32145701

线性轨迹：揭示 LLM 强化学习中的高效捷径