如何把 RL 训练加速到 2.5 倍?聊聊 RollPacker 中的 RL 优化!
回顾VLA发展历史!探讨VLA中的理解与生成
如何通过在线强化学习改进VLA模型?
自动驾驶VLA,从EMMA看感知决策新范式
从“RL比SFT更不容易遗忘”到“反观推荐系统缺陷”
SageAttention:即插即用的8-bit Attention 最佳实践
从最新机器人顶会IROS 2025,聊聊具身智能、操控与系统等方向的最新进展与趋势
AEPO:智能体熵平衡策略优化,让探索更稳,推理更深!
Diffusion 最新综述分享
FlashAttentionV1/V2+PageAttentionV1/V2+RadixAttention算法总结
世界模型正在重塑机器人大脑!解析World Model × 具身智能的最新论文
VLM RL如何涨点 - 实践和思考
Day 0支持HunyuanVideo 1.5!LightX2V让AI视频创作迈入实时生成时代
调研:扩散语言模型(DLM)的现状与将来
SFT和RL,在后训练中哪个更容易导致遗忘?
《Defeating the Training-Inference Mismatch via FP16》
MXFP8、MXFP4 与 NVFP4 详解
Diffusion + RL 系列二 (DPPO 及其后续发展)
增强多模态大模型定位能力的一些方法
Kimi Linear学习笔记:让Attention又快又好
NVIDIA Grace Blackwell机柜式系统上DeepSeek-V3模型预训练性能优化
当小模型当老师,大模型反而学得更好了?
从 ICLR 2026,看VLA的研究趋势
万字长文深度解析经典VLA方案:PI-0
ReMax背后的故事
入坑必备基础知识!关于推理模型的一些科普
RL 为什么不如 SFT 稳定?以及 RL 各种 Trick
系统解析VLA核心技术路线与典型架构
GEN-0 出现的背后我们可以学到什么?以及对后续 VLA 发展的看法
微软研究:为何LLM会在多轮对话中迷失
量化算法进阶篇(中):4-bit量化算法 —— 从GPTQ、AWQ到QLoRA和FlatQuant
28篇最新论文!系统调研 VLA+RL 最近的研究趋势
《Kimi K2: Open Agentic Intelligence》论文解读
干货!如何训练一个开源推理模型Olmo-Thinking
聊聊Kimi K2 Thinking模型的原生 Int 4 量化
美团开源!LongCat-Flash技术报告解读
美团 LongCat-Flash-Thinking 技术报告解读
HKU MMLab最新开源SRUM!基于统一多模态模型的训练后奖励微调
谈一谈DeepSeek-OCR和Glyph用视觉压缩思路,模拟人类记忆遗忘机制,突破LLM上下文窗口限制
深度解析!理想MindVLA和小米ORION的VLA核心技术栈与具身智能的未来
当谈论 FP8 训练的时候,我们到底在聊什么?
Agent记忆的第三种可能:生成式隐式记忆