大模型为什么会产生“离群值”?深度解析RoPE与注意力机制
2025 Agentic RL 经验总结!这一年的弯路、暴论和下一步思考
替代 GRPO!英伟达最新成果GDPO,解决多奖励 RL 训练的优势崩溃
比 EAGLE-3 快 2.5 倍、Qwen3 推理加速 6.17 倍!DFlash 如何利用扩散模型终结自回归瓶颈?
实录精选!MiniMax M2.1:Agent 后训练技术解读
1% 投毒导致40% 翻车:AI 事实核查系统有多脆弱?
从“训推一体”到“AI 自主演进”——2025 AI 嘉年华 Infra 专题实录
标准LLMs的替代方案:线性注意力混合模型|文本扩散|代码世界模型|小型递归Transformer
LLM内部竟藏着众多策略模型?自动化所&腾讯团队首次揭示大模型RL新机制
2026,进入 Agent RL 时代!
从 Rollout 到 Agentic RL,再到SaaS RL,聊聊 RL一整年的感悟
从PD分离到AF分离!聊聊 LLM 推理架构演进中的几个关键技术节点
智谱 AI 首席科学家唐杰:AI 应用的本质是替代或增强人类工种,而不是为了做 App 而做 App
经验分享!这半年来,用 RL 做 LLM 后训练时踩过的那些坑与心得
大模型强化学习算法PPO、GRPO、DAPO、GSPO、SAPO的演进与对比
小米大模型 Plus 团队提出BTL-UI:基于直觉-思考-关联的GUI Agent推理
在看完近50篇VLA+RL工作之后......
工业级 Agentic RL 训练对比选型指南
中科院自动化所&北体大提出SportsGPT,打造懂专业、会指导的AI教练
深挖强化学习算法PPO,聊聊前身TRPO
NeurIPS 2025!阿里开源 UniEdit:首个大型开放域大模型知识编辑基准
为什么视频生成稀疏注意力做不好?中科院自动化所最新提出稀疏注意力纠偏新范式
让“思考”本身有价值!为什么模型 RL 后思维链长度持续变短?
纯干货!做 VLA 的一些头部问题和心得体会
对比现有的 RL 训练框架!聊聊关于 Agentic RL 训推框架的一点看法和思考
实录精选!流匹配 VLA 的强化学习后训练框架π_RL技术详解
当速度扼杀稳定性:字节揭秘训练-推理不匹配导致的RL崩溃
聊聊AdaMoE:让专家别“独占舞台”的 VLA 稀疏架构
纯干货!工业场景下,LLM Agent RL的一些实践感悟
VDM + DiT = 更聪明的机器人?北大推出新快慢系统 VLA 模型
聊聊小模型与大模型下的推理框架
什么?RLVR 竟然不是在学习新知识?而是在学习如何使用知识进行推理!
深度解构!从 LLaVA 到 Qwen3-VL,多模态大模型主流架构的演进之路
VLA 已经不满足于 SFT,也要上 RL 了?
多模态统一模型的“理解”真的能指导“生成”吗?北大推出 UniSandbox,揭示理解-生成鸿沟与进化之路
深度!从两策略到三策略:行为策略和参考策略不一致下的 TRPO 扩展
如何把 RL 训练加速到 2.5 倍?聊聊 RollPacker 中的 RL 优化!
回顾VLA发展历史!探讨VLA中的理解与生成
如何通过在线强化学习改进VLA模型?
自动驾驶VLA,从EMMA看感知决策新范式
从“RL比SFT更不容易遗忘”到“反观推荐系统缺陷”
SageAttention:即插即用的8-bit Attention 最佳实践
从最新机器人顶会IROS 2025,聊聊具身智能、操控与系统等方向的最新进展与趋势
Diffusion 最新综述分享
FlashAttentionV1/V2+PageAttentionV1/V2+RadixAttention算法总结
世界模型正在重塑机器人大脑!解析World Model × 具身智能的最新论文
VLM RL如何涨点 - 实践和思考
Day 0支持HunyuanVideo 1.5!LightX2V让AI视频创作迈入实时生成时代
调研:扩散语言模型(DLM)的现状与将来
SFT和RL,在后训练中哪个更容易导致遗忘?
RL训练总是崩?Sea AI Lab 最新成果:只需从 BF16 切换到 FP16 就行
MXFP8、MXFP4 与 NVFP4 详解
Diffusion + RL 系列二 (DPPO 及其后续发展)
增强多模态大模型定位能力的一些方法
Kimi Linear学习笔记:让Attention又快又好
NVIDIA Grace Blackwell机柜式系统上DeepSeek-V3模型预训练性能优化
当小模型当老师,大模型反而学得更好了?
从 ICLR 2026,看VLA的研究趋势
万字长文深度解析经典VLA方案:PI-0
ReMax背后的故事
入坑必备基础知识!关于推理模型的一些科普
RL 为什么不如 SFT 稳定?以及 RL 各种 Trick
系统解析VLA核心技术路线与典型架构
GEN-0 出现的背后我们可以学到什么?以及对后续 VLA 发展的看法
微软研究:为何LLM会在多轮对话中迷失
量化算法进阶篇(中):4-bit量化算法 —— 从GPTQ、AWQ到QLoRA和FlatQuant
28篇最新论文!系统调研 VLA+RL 最近的研究趋势
《Kimi K2: Open Agentic Intelligence》论文解读
干货!如何训练一个开源推理模型Olmo-Thinking
聊聊Kimi K2 Thinking模型的原生 Int 4 量化
美团开源!LongCat-Flash技术报告解读
美团 LongCat-Flash-Thinking 技术报告解读
HKU MMLab最新开源SRUM!基于统一多模态模型的训练后奖励微调
谈一谈DeepSeek-OCR和Glyph用视觉压缩思路,模拟人类记忆遗忘机制,突破LLM上下文窗口限制
深度解析!理想MindVLA和小米ORION的VLA核心技术栈与具身智能的未来
当谈论 FP8 训练的时候,我们到底在聊什么?
Agent记忆的第三种可能:生成式隐式记忆