11月8日(周六)上午10点,青稞Talk 第87期,香港大学直博生黄炜,将直播分享《RL 训练框架:QeRL,量化技术增强强化学习 Reasoning 探索》。
分享嘉宾
黄炜,香港大学三年级直博生,师从齐晓娟教授。英伟达研究院Efficient AI & Learning and Perception Research Group实习生,Long-RL,LongLive,QeRL系列高效多模态理解、生成与推理工作核心作者。研究方向为模型压缩,高效大语言模型,高效强化学习推理训练。在ICML,ICLR,Neurips,CVPR等国际顶级会议和期刊发表多篇论文。
主题提纲
RL 训练框架:QeRL,量化技术增强强化学习 Reasoning 探索
1、RL 训练的挑战
2、QeRL:结合NVFP4量化和低秩适配(LoRA)
3、自适应量化噪声机制(AQN)
4、应用实践与未来技术探索
直播时间
11月8日(周六)10:00 - 11:00
如何观看
Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行,扫码对暗号:" 1108 ",报名进群!
![]()
同时,嘉宾已经入驻青稞社区·知识星球,想要提问交流的朋友可以加入星球!
![]()