1. 首页
  2. 青稞Talk
  3. RL 训练框架:QeRL 量化技术增强强化学习 Reasoning 探索

RL 训练框架:QeRL 量化技术增强强化学习 Reasoning 探索

  • 发布于 2025-11-04
  • 74 次阅读

直播平台

PC端

视频号

YouTube

哔哩哔哩

相关资源

演示文稿 (PPT)

直播配套幻灯片

下载

11月8日(周六)上午10点,青稞Talk 第87期,香港大学直博生黄炜,将直播分享《RL 训练框架:QeRL,量化技术增强强化学习 Reasoning 探索》。

分享嘉宾

黄炜,香港大学三年级直博生,师从齐晓娟教授。英伟达研究院Efficient AI & Learning and Perception Research Group实习生,Long-RL,LongLive,QeRL系列高效多模态理解、生成与推理工作核心作者。研究方向为模型压缩,高效大语言模型,高效强化学习推理训练。在ICML,ICLR,Neurips,CVPR等国际顶级会议和期刊发表多篇论文。

主题提纲

RL 训练框架:QeRL,量化技术增强强化学习 Reasoning 探索

1、RL 训练的挑战
2、QeRL:结合NVFP4量化和低秩适配(LoRA)
3、自适应量化噪声机制(AQN)
4、应用实践与未来技术探索

直播时间

11月8日(周六)10:00 - 11:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行,扫码对暗号:" 1108 ",报名进群!

同时,嘉宾已经入驻青稞社区·知识星球,想要提问交流的朋友可以加入星球!