精选文章

精选文章

如何把 RL 训练加速到 2.5 倍？聊聊 RollPacker 中的 RL 优化！

如何把 RL 训练加速到 2.5 倍？聊聊 RollPacker 中的 RL 优化！
阅读更多
回顾VLA发展历史！探讨VLA中的理解与生成

回顾VLA发展历史！探讨VLA中的理解与生成
阅读更多
如何通过在线强化学习改进VLA模型？

如何通过在线强化学习改进VLA模型？
阅读更多
自动驾驶VLA，从EMMA看感知决策新范式

自动驾驶VLA，从EMMA看感知决策新范式
阅读更多
从“RL比SFT更不容易遗忘”到“反观推荐系统缺陷”

从“RL比SFT更不容易遗忘”到“反观推荐系统缺陷”
阅读更多
SageAttention：即插即用的8-bit Attention 最佳实践

SageAttention：即插即用的8-bit Attention 最佳实践
阅读更多
从最新机器人顶会IROS 2025，聊聊具身智能、操控与系统等方向的最新进展与趋势

从最新机器人顶会IROS 2025，聊聊具身智能、操控与系统等方向的最新进展与趋势
阅读更多
AEPO：智能体熵平衡策略优化，让探索更稳，推理更深！

AEPO：智能体熵平衡策略优化，让探索更稳，推理更深！
阅读更多
Diffusion 最新综述分享

Diffusion 最新综述分享
阅读更多
FlashAttentionV1/V2+PageAttentionV1/V2+RadixAttention算法总结

FlashAttentionV1/V2+PageAttentionV1/V2+RadixAttention算法总结
阅读更多
世界模型正在重塑机器人大脑！解析World Model × 具身智能的最新论文

世界模型正在重塑机器人大脑！解析World Model × 具身智能的最新论文
阅读更多
VLM RL如何涨点 - 实践和思考

VLM RL如何涨点 - 实践和思考
阅读更多
Day 0支持HunyuanVideo 1.5！LightX2V让AI视频创作迈入实时生成时代

Day 0支持HunyuanVideo 1.5！LightX2V让AI视频创作迈入实时生成时代
阅读更多
调研：扩散语言模型（DLM）的现状与将来

调研：扩散语言模型（DLM）的现状与将来
阅读更多
SFT和RL，在后训练中哪个更容易导致遗忘？

SFT和RL，在后训练中哪个更容易导致遗忘？
阅读更多
《Defeating the Training-Inference Mismatch via FP16》

《Defeating the Training-Inference Mismatch via FP16》
阅读更多
MXFP8、MXFP4 与 NVFP4 详解

MXFP8、MXFP4 与 NVFP4 详解
阅读更多
Diffusion + RL 系列二（DPPO 及其后续发展）

Diffusion + RL 系列二（DPPO 及其后续发展）
阅读更多
增强多模态大模型定位能力的一些方法

增强多模态大模型定位能力的一些方法
阅读更多
Kimi Linear学习笔记：让Attention又快又好

Kimi Linear学习笔记：让Attention又快又好
阅读更多
NVIDIA Grace Blackwell机柜式系统上DeepSeek-V3模型预训练性能优化

NVIDIA Grace Blackwell机柜式系统上DeepSeek-V3模型预训练性能优化
阅读更多
当小模型当老师，大模型反而学得更好了？

当小模型当老师，大模型反而学得更好了？
阅读更多
从 ICLR 2026，看VLA的研究趋势

从 ICLR 2026，看VLA的研究趋势
阅读更多
万字长文深度解析经典VLA方案：PI-0

万字长文深度解析经典VLA方案：PI-0
阅读更多
ReMax背后的故事

ReMax背后的故事
阅读更多
入坑必备基础知识！关于推理模型的一些科普

入坑必备基础知识！关于推理模型的一些科普
阅读更多
RL 为什么不如 SFT 稳定？以及 RL 各种 Trick

RL 为什么不如 SFT 稳定？以及 RL 各种 Trick
阅读更多
系统解析VLA核心技术路线与典型架构

系统解析VLA核心技术路线与典型架构
阅读更多
GEN-0 出现的背后我们可以学到什么？以及对后续 VLA 发展的看法

GEN-0 出现的背后我们可以学到什么？以及对后续 VLA 发展的看法
阅读更多
微软研究：为何LLM会在多轮对话中迷失

微软研究：为何LLM会在多轮对话中迷失
阅读更多
量化算法进阶篇(中)：4-bit量化算法 —— 从GPTQ、AWQ到QLoRA和FlatQuant

量化算法进阶篇(中)：4-bit量化算法 —— 从GPTQ、AWQ到QLoRA和FlatQuant
阅读更多
28篇最新论文！系统调研 VLA+RL 最近的研究趋势

28篇最新论文！系统调研 VLA+RL 最近的研究趋势
阅读更多
《Kimi K2: Open Agentic Intelligence》论文解读

《Kimi K2: Open Agentic Intelligence》论文解读
阅读更多
干货！如何训练一个开源推理模型Olmo-Thinking

干货！如何训练一个开源推理模型Olmo-Thinking
阅读更多
聊聊Kimi K2 Thinking模型的原生 Int 4 量化

聊聊Kimi K2 Thinking模型的原生 Int 4 量化
阅读更多
美团开源！LongCat-Flash技术报告解读

美团开源！LongCat-Flash技术报告解读
阅读更多
美团 LongCat-Flash-Thinking 技术报告解读

美团 LongCat-Flash-Thinking 技术报告解读
阅读更多
HKU MMLab最新开源SRUM！基于统一多模态模型的训练后奖励微调

HKU MMLab最新开源SRUM！基于统一多模态模型的训练后奖励微调
阅读更多
谈一谈DeepSeek-OCR和Glyph用视觉压缩思路，模拟人类记忆遗忘机制，突破LLM上下文窗口限制

谈一谈DeepSeek-OCR和Glyph用视觉压缩思路，模拟人类记忆遗忘机制，突破LLM上下文窗口限制
阅读更多
深度解析！理想MindVLA和小米ORION的VLA核心技术栈与具身智能的未来

深度解析！理想MindVLA和小米ORION的VLA核心技术栈与具身智能的未来
阅读更多
当谈论 FP8 训练的时候，我们到底在聊什么?

当谈论 FP8 训练的时候，我们到底在聊什么?
阅读更多
Agent记忆的第三种可能：生成式隐式记忆

Agent记忆的第三种可能：生成式隐式记忆
阅读更多