1. 首页
  2. 青稞Talk
  3. 统一 SFT & RL:迈向大型语言模型后训练的统一视角

统一 SFT & RL:迈向大型语言模型后训练的统一视角

  • 发布于 2025-10-23
  • 86 次阅读

直播平台

PC端

YouTube

哔哩哔哩

相关资源

演示文稿 (PPT)

直播配套幻灯片

下载

10月28日(周二)晚8点,青稞Talk 第83期,清华大学博士生吕兴泰,将直播分享《统一 SFT & RL:迈向大型语言模型后训练的统一视角》。

分享嘉宾

吕兴泰,清华大学二年级博士生,导师为周伯文教授。研究方向为大语言模型架构优化、强化学习和高效训练技术。在ACL,EMNLP,NeurIPS,ICML等国际人工智能顶级会议上发表论文十余篇。

主题提纲

统一 SFT & RL:迈向大型语言模型后训练的统一视角

1、LLM 后训练算法概览
2、统一大语言模型后训练的理论框架 UPGE
3、基于实时采样表现的动态后训练算法 HPT
4、未来研究讨论

直播时间

10月28日(周二)20:00 - 21:00

同时,嘉宾已经入驻青稞社区·知识星球,想要提问交流的朋友可以加入星球!