MinT: 面向百万级 LoRA 策略的训练与推理基础设施

发布于 2026-05-29
·
108 次阅读
·
·

直播回放

陆逸文

Mind Lab Research Scientist，Head of Infrastructure，清华大学博士

直播平台

哔哩哔哩

视频号

YouTube

相关资源

演示文稿 (PPT)

直播配套幻灯片

暂未提供

大模型后训练会带来一个很现实的系统问题：模型会不断产生新版本。一次强化学习实验、一个产品功能、一个客户、一组评测结果，都可能对应一种新的模型行为。基础模型本身又非常大，动辄万亿参数规模。系统如果把每种行为都保存成一份完整模型，再分别加载和部署，成本会很快失控。

MinT 是一套面向这个问题的大模型后训练和在线服务系统。它的目标是让少数昂贵的基础模型，承载大量持续变化的模型行为。

MinT 把基础模型常驻在训练和推理集群里，每次后训练得到的变化用一个小得多的 LoRA 适配器保存。这个适配器可以理解成挂在基础模型上的能力版本：它记录某次训练学到的行为，之后可以被评测、选择、加载到服务系统中。

论文：MinT: Managed Infrastructure for Training and Serving Millions of LLMs

链接：https://arxiv.org/pdf/2605.13779

代码：https://github.com/MindLab-Research/mindlab-toolkit

这套系统从三个方向扩展。Scale up 关注模型能做到多大，MinT 验证到 1T 级总参数模型。Scale down 关注每次训练结果进入服务时要搬多少数据：LoRA适配器只有基础模型权重体积的约 3%。Scale out 关注版本数量能做到多大，MinT 支持百万级可请求版本目录，同时只让当前真正需要的少量适配器占用 CPU 和 GPU 资源

6月2日晚8点，青稞Talk 126期，Mind Lab 研究科学家陆逸文，将直播分享《MinT: 面向百万级 LoRA 策略的训练与推理基础设施》。

包括：当后训练让模型行为不断分叉时，怎样用 LoRA 适配器、版本记录、训练到服务的交接机制和多级缓存，把大模型系统从“部署少数完整模型”扩展到“服务海量轻量模型行为”。

分享嘉宾

陆逸文，Mind Lab Research Scientist，Head of Infrastructure，清华大学博士。当前兴趣包括大模型后训练基础设施、agentic RL、具身智能。主导 MinT 项目，关注如何把 LoRA 从参数高效微调方法提升为可训练、可评测、可推理的大规模基础设施。

主题提纲

MinT: 面向百万级 LoRA 策略的训练与推理基础设施

1、后训练为什么会让模型行为不断分叉
2、MinT 如何用 LoRA 适配器管理这些行为
3、MinT 的三个扩展维度：Scale up、Scale down、Scale out
4、大规模 LoRA 服务中的缓存和加载问题
5、AMA （Ask Me Anything）环节

直播时间

6月2日(周二)20:00 - 21:00