从 BF16 到 FP16：如何解决RL训练-推理不匹配问题

大语言模型（LLM）的强化学习（RL）微调常因训练与推理策略间的数值不匹配而面临训练不稳定的问题。相比在算法上引入重要性采样来打补丁，我们发现直接从根源上提高浮点数的精度更加有效。

论文：Defeating the Training-Inference Mismatch via FP16
链接：https://arxiv.org/pdf/2510.26788
代码：https://github.com/sail-sg/Precision-RL

通过将当前主流的 BFloat16 (BF16) 替换为 Float16 (FP16)，强化学习的训练稳定性和效率可以大幅度提升。我们希望通过这项研究，可以推动社区重新审视强化学习微调中的精度权衡问题。

12月13日（周六）上午10点，青稞Talk 第97期，SeaAI Lab 研究工程师、新加坡国立大学博士生齐朋辉，将直播分享《从 BF16 到 FP16：如何解决RL训练-推理不匹配问题》。

齐朋辉，SeaAI Lab 研究工程师，新加坡国立大学博士生。研究方向为 MLSys 和 RL，主要工作包括：

从 BF16 到 FP16：如何解决RL训练-推理不匹配问题

1、RL 为什么会出现训练-推理不匹配问题？
2、从 BF16 到 FP16：为什么 FP16 反而更一致
3、FP16 的效果验证及启发探讨
4、AMA （Ask Me Anything）环节

12月13日（周六）10:00 - 11:00