青稞社区

RL for LRMs：探讨面向推理模型的 RL 最新研究

RL for LRMs：探讨面向推理模型的 RL 最新研究

2025-10-21 20:00

🎥 观看直播

大模型强化学习

“知人者智”：以用户为中心的智能体交互与训练

“知人者智”：以用户为中心的智能体交互与训练

2025-10-18 10:00

🎥 观看直播

强化学习 AI Agent

从 LLM-RL 到 Agentic RL：如何让语言模型成为自主智能体

从 LLM-RL 到 Agentic RL：如何让语言模型成为自主智能体

2025-09-18 20:00

🎥 观看直播

大模型强化学习

FlashRL：探讨现代 RL 框架中推理与训练的错位问题及解决方案

FlashRL：探讨现代 RL 框架中推理与训练的错位问题及解决方案

2025-08-30 11:00

🎥 观看直播

强化学习

ROLL：面向 Agentic 场景的生产级大规模强化学习训练框架

ROLL：面向 Agentic 场景的生产级大规模强化学习训练框架

2025-08-23 10:00

🎥 观看直播

RL Infra 强化学习大模型

RLPR：基于参考概率奖励的强化学习，推广 RLVR 到通用领域推理问题

RLPR：基于参考概率奖励的强化学习，推广 RLVR 到通用领域推理问题

2025-08-12 20:00

🎥 观看直播

强化学习大模型

GSPO：大规模强化学习训练算法，迈向持续拓展的语言模型强化学习

GSPO：大规模强化学习训练算法，迈向持续拓展的语言模型强化学习

2025-08-07 20:00

🎥 观看直播

大模型强化学习

ProRL: 延长强化学习训练框架，拓展大语言模型的推理边界

ProRL: 延长强化学习训练框架，拓展大语言模型的推理边界

2025-07-12 10:00

🎥 观看直播

强化学习大模型大模型推理

Satori-SWE：用 Evolutionary Test-Time Scaling 让小语言模型解决复杂软件工程

Satori-SWE：用 Evolutionary Test-Time Scaling 让小语言模型解决复杂软件工程

2025-07-05 10:00

🎥 观看直播

推理大模型强化学习大模型

大模型推理强化学习中的熵机制

大模型推理强化学习中的熵机制

2025-07-01 20:00

🎥 观看直播

强化学习推理大模型大模型

从 TTS 到 TTRL：无标签数据强化学习探索与展望

从 TTS 到 TTRL：无标签数据强化学习探索与展望

2025-05-14 20:00

🎥 观看直播

强化学习大模型推理大模型

从 TinyZero 到 APR：语言模型推理能力的探索与自适应并行化

从 TinyZero 到 APR：语言模型推理能力的探索与自适应并行化

2025-04-22 09:00

🎥 观看直播

大模型强化学习

B-STaR & SimpleRL-Zoo：通过强化学习自我提升推理性能和效率

B-STaR & SimpleRL-Zoo：通过强化学习自我提升推理性能和效率

2025-04-19 11:00

🎥 观看直播

大模型强化学习

PRIME: 结合隐式过程奖励的强化学习

PRIME: 结合隐式过程奖励的强化学习

2025-02-22 11:00

🎥 观看直播

大模型强化学习