直播预告！从 MLA 到 GQLA：无需从头训练，硬件自适应高效注意力机制

发布于 2026-06-12
·
4 次阅读
·
·

大模型

即将开始

孟繁续

北大博士生

直播平台

视频号

分享嘉宾

孟繁续，北京大学博士，腾讯青云实习生，小红书REDstar基模组员工。研究方向为高效模型结构推理和训练方法，以第一作者身份发表顶会论文7篇。代表作TransMLA (NeurIPS 2025 Spotlight) 被蚂蚁Ling-2.5-1T大模型使用，大幅减少预训练开销；代表作PiSSA (NeurIPS 2024 Spotlight)被peft等多个万star开源项目收录。

主题提纲

从 MLA 到 GQLA：无需从头训练，硬件自适应高效注意力机制

1、从 MLA 看大模型架构的硬件挑战
2、GQLA 核心架构：分组查询潜在注意力
3、H100/H20 硬件自适应部署
4、TransGQLA：实现“零成本”模型架构转换
5、探索 Sparse GQLA & AMA （Ask Me Anything）环节

直播时间

6月16日(周二)20:00 - 21:00

直播预告！从 MLA 到 GQLA：无需从头训练，硬件自适应高效注意力机制

直播平台

相关资源

分享嘉宾

主题提纲

直播时间