这是你的默认分类,如不需要,删除即可。
RLinf-VLA 实践:从零上手 VLA(OpenVLA )强化学习
通过量化与稀疏性实现高效注意力机制
RLinf:面向具身智能的“渲训推一体化”开源强化训练框架
KTransformers,在大模型微调与推理中的系统化实践
ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系
Generative RLHF-V: 面向多模态 RLHF 的人类意图对齐框架
UniLat3D:几何–外观统一VAE的单阶段 3D 生成框架
RL 训练框架:QeRL 量化技术增强强化学习 Reasoning 探索
从 DeepSeek-OCR 到 Glyph:深入理解图像-文本压缩技术
OpenMoE 2: Sparse Diffusion Language Models
SimpleVLA-RL:简单可拓展的VLA强化学习训练
统一 SFT & RL:迈向大型语言模型后训练的统一视角
OpenCUA:用于构建 Computer-Use Agent 的开源框架
MemGen:生成式隐式记忆,Agent Memory 的第三种可能
RL for LRMs:探讨面向推理模型的 RL 最新研究
“知人者智”:以用户为中心的智能体交互与训练
从 LLM-RL 到 Agentic RL:如何让语言模型成为自主智能体
Theory of Agent: From Definition, to Behavior and Objective
NeMo RL:让大规模 MoE 模型权重 Refit 加速 10 倍
FlashRL:探讨现代 RL 框架中推理与训练的错位问题及解决方案
ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架
从BLIP3o到BLIP3o-NEXT:迈向统一生成与理解的多模态大模型
Clothed Human Body Fitting: A Journey to ETCH
RLPR:基于参考概率奖励的强化学习,推广 RLVR 到通用领域推理问题
Evaluation Agent:面向视觉生成模型的高效可提示的评估框架
GSPO:大规模强化学习训练算法,迈向持续拓展的语言模型强化学习
slime:专为 RL Scaling 设计的大规模 RL 训练框架及实践
大模型训练流水线并行四部曲:吞吐、内存、负载均衡与线性扩展
SIMoE:稀疏插值混合专家,大模型升级再造的自动化专家发现框架
Hi3DGen:法线为桥,为高清三维几何生成另辟蹊径
MindCube:空间智能的实现路径,探究 VLMs 构建稳健空间心理模型的能力
ChatRex & RexSeek & RexThinker: 结合多模态大语言模型的目标检测模型构建
ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界
GUI-Reflection:让多模态 GUI 智能体获得反思纠错能力的训练框架
Satori-SWE:用 Evolutionary Test-Time Scaling 让小语言模型解决复杂软件工程
大模型推理强化学习中的熵机制
Virtual Community 虚拟社区:面向人、机器人与社会的开放世界模拟平台
Fast-dLLM:无需重训的扩散大语言模型推理加速
InternVL3,GPT-4o开源平替:多模态通用感知大模型的技术演进与应用探索
生成模型中的极简概念擦除
BAGEL:统一生成理解的多模态基础模型
Chain-of-Model (模型链):引入因果建模,全新的大模型 Scaling 结构
Sparse VideoGen:无需重新训练的 DiTs 推理加速框架
EraseAnything: 在 Flux 等先进文生图架构的概念擦除方法
MoLE & SpeCache:大语言模型端侧部署的架构与算法
verl 源码解读 与 HybridFlow 编程范式讲解
从 TTS 到 TTRL:无标签数据强化学习探索与展望
Free4D:无需微调的 4D 场景生成新框架
从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化
B-STaR & SimpleRL-Zoo:通过强化学习自我提升推理性能和效率
InferCept、Preble&Cognify:面向下一代 AI Agent 工作流系统的构建
VideoGrain:基于扩散模型的多粒度视频编辑的探索与应用
COAT:显存高效的 FP8 训练,实现高效深度学习
PC-Agent:面向复杂 PL 任务的多模态智能体框架
基于 LightLLM 的 DeepSeek R1/V3 模型部署实战
PRIME: 结合隐式过程奖励的强化学习
Satori:通过训练LLM做自回归搜索来增强推理能力
Motion Dreamer:面向自动驾驶与物理世界对齐的视频生成模型
Follow Family:可控视频生成方法探索与应用
Tuning-Free Enhence:通过噪声初始化和采样轨迹优化增强预训练扩散模型
K-Sort Arena:视觉生成模型的高效人类偏好竞技场
XGrammar:高效实现 LLM灵活且可移植的结构化生成
LLMC:大语言模型压缩工具的开发实践
Rectified Flow:矫正流生成式模型的概念及应用实践
OminiParser:基于纯视觉的 GUI Agent
VILA^2 :视觉语言模型能力的自我提升
DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化
GenAD & Vista:构建通用可泛化的自动驾驶世界模型
VITA:开源交互式多模态基础大模型
LLMC:大语言模型的量化基准
使用CAMEL Agents构建GraphRAG及应用实践
CogVideoX 视频生成开源模型上手实践
mPLUG-Owl3:探索长序列模型架构的通用多模态大模型
SGLang v0.2:面向 LLM 和 VLM 的快速、高效通用服务引擎
S-LoRA:实现多 LoRA 大模型的高效并行化推理
AWQ:激活值感知的LLM低位权重量化
InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界
SEED-Story:生成长篇图文故事的多模态大型语言模型
YOLO-World:基于视觉语言模型的实时开放词汇物体检测
MiniCPM-V:端侧可用的GPT-4V级多模态大模型
Mobile-Agent:基于多模态Agent架构的手机智能体
LLaMA Factory:从预训练到RLHF,大模型高效训练框架
VillagerAgent:减少幻觉、提高任务分解效率的多智能协作体框架
LLaMA Pro:扩展Transformer块优化的大型语言模型继续预训练
PiSSA:收敛快、误差小的大模型参数高效微调方法
具身多模态大模型的视觉表征预训练研究
VideoBooth:文本和图像提示共同驱动的视频生成
MixEval:混合评测数据集来拟合大语言模型的人类评估
实时渲染 3DGS 中的反走样及逆渲染应用
3D-VLA:构建生成式三维具身世界模型
Mini-Gemini:挖掘多模态视觉语言大模型的潜力
从 3D LLM 到 MultiPLY ,3D 具身基础模型的构建
ChatDev:大语言模型驱动的多智能体协作与演化
SceneTex:高质量三维室内场景纹理图生成