从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化

📅 直播时间:2025-04-22 09:00 🎥 观看直播

TinyZero由加州大学伯克利分校的研究团队开发的,也是首个DeepSeek R1-Zero的干净、简洁、易于获取的全开源复现,目前已11.6k Star。同时,它只需 30 美元就能模拟花费600万美元的DeepSeek R1-Zero 的推理。

TinyZero 以veRL为基础进行构建,采用 DeepSeek R1-Zero 算法,通过强化学习在没有监督微调的情况下实现了 3B 参数的大语言模型的自我思维验证和搜索能力。

https://github.com/Jiayi-Pan/TinyZero

4月22日上午9点,青稞Talk 第46期,UC Berkeley 博士生、TinyZero项目作者潘家怡和APR合作者李岫宇,将直播分享《从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化》。

APR(Adaptive Parallel Reasoning)是潘家怡博士和李岫宇博士,在Long CoT模型并行化加速方面的最新成果。传统 CoT 推理中,串联式的思想方式会导致输出过长、延迟增加和上下文窗口耗尽;而并行方法如自一致性则缺乏协调性,导致冗余计算和有限改进。而APR可以使语言模型能够自主选择何时进行并行化推理。此外,APS还使用了强化学习技术来进一步优化模型的行为策略,以实现更高的性能和更有效的计算资源利用。

实验结果表明,相对于串联式搜索,APR在相同延迟约束下具有更高的推理准确率,在固定上下文窗口内表现更好,并且具有更好的扩展性。

Canvas – 697.png

分享嘉宾

李岫宇,UC Berkeley 博士生,导师为 Kurt Keutzer 教授,此前本科毕业于康奈尔大学。现主要研究方向为大语言模型 reasoning,后训练和高效推理。个人主页:xiuyuli.com

潘家怡,UC Berkeley 博士生,导师为 Alane Suhr教授,此前本科毕业于上海交通大学和密西根大学。现主要研究方向为大语言模型后训练方向,通过强化学习等方式提高模型在Agent和Reasoning上的能力。个人主页:jiayipan.com

主题提纲

从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化

1、TinyZero: 低成本复现 DeepSeek R1 Zero Aha moment
2、大语言模型传统 CoT 推理中的挑战
3、APR: 自适应并行推理框架介绍
4、端到端强化学习驱动优化

直播时间

4月22日上午9:00 - 10:00

参与方式

Talk 将在青稞·知识社区上进行,扫码对暗号:" 0422 ",报名进群!