10月28日(周二)晚8点,青稞Talk 第83期,清华大学博士生吕兴泰,将直播分享《统一 SFT & RL:迈向大型语言模型后训练的统一视角》。
分享嘉宾
吕兴泰,清华大学二年级博士生,导师为周伯文教授。研究方向为大语言模型架构优化、强化学习和高效训练技术。在ACL,EMNLP,NeurIPS,ICML等国际人工智能顶级会议上发表论文十余篇。
主题提纲
统一 SFT & RL:迈向大型语言模型后训练的统一视角
1、LLM 后训练算法概览
2、统一大语言模型后训练的理论框架 UPGE
3、基于实时采样表现的动态后训练算法 HPT
4、未来研究讨论
直播时间
10月28日(周二)20:00 - 21:00
同时,嘉宾已经入驻青稞社区·知识星球,想要提问交流的朋友可以加入星球!
![]()