统一 SFT & RL：迈向大型语言模型后训练的统一视角

首页
青稞Talk
统一 SFT & RL：迈向大型语言模型后训练的统一视角

统一 SFT & RL：迈向大型语言模型后训练的统一视角

发布于 2025-10-23
215 次阅读

吕兴泰

讲师：吕兴泰

清华大学博士生

直播平台

哔哩哔哩

YouTube

相关资源

演示文稿 (PPT)

直播配套幻灯片

下载

10月28日（周二）晚8点，青稞Talk 第83期，清华大学博士生吕兴泰，将直播分享《统一 SFT & RL：迈向大型语言模型后训练的统一视角》。

分享嘉宾

吕兴泰，清华大学二年级博士生，导师为周伯文教授。研究方向为大语言模型架构优化、强化学习和高效训练技术。在ACL，EMNLP，NeurIPS，ICML等国际人工智能顶级会议上发表论文十余篇。

主题提纲

统一 SFT & RL：迈向大型语言模型后训练的统一视角

1、LLM 后训练算法概览
2、统一大语言模型后训练的理论框架 UPGE
3、基于实时采样表现的动态后训练算法 HPT
4、未来研究讨论

直播时间

10月28日(周二)20:00 - 21:00

同时，嘉宾已经入驻青稞社区·知识星球，想要提问交流的朋友可以加入星球！