RL 训练框架：QeRL 量化技术增强强化学习 Reasoning 探索

发布于 2025-11-04
·
214 次阅读
·
·

直播回放

黄炜

香港大学三年级直博生

直播平台

YouTube

哔哩哔哩

视频号

分享嘉宾

黄炜，香港大学三年级直博生，师从齐晓娟教授。英伟达研究院Efficient AI & Learning and Perception Research Group实习生，Long-RL，LongLive，QeRL系列高效多模态理解、生成与推理工作核心作者。研究方向为模型压缩，高效大语言模型，高效强化学习推理训练。在ICML，ICLR，Neurips，CVPR等国际顶级会议和期刊发表多篇论文。

主题提纲

RL 训练框架：QeRL，量化技术增强强化学习 Reasoning 探索

1、RL 训练的挑战
2、QeRL：结合NVFP4量化和低秩适配（LoRA）
3、自适应量化噪声机制（AQN）
4、应用实践与未来技术探索

直播时间

11月8日(周六)10:00 - 11:00

如何观看

Talk 将在青稞社区【视频号：青稞AI、Bilibili：青稞AI】上进行，扫码对暗号：" 1108 "，报名进群！

同时，嘉宾已经入驻青稞社区·知识星球，想要提问交流的朋友可以加入星球！