随着大模型所处理的序列长度不断增长,注意力计算已成为主要性能瓶颈——在视频生成模型中占据超过 80% 的总运行时间。低精度量化与稀疏性是提升计算效率的两种有效途径。
11月29日(周六)上午10点,青稞社区和减论平台将联组织青稞Talk 第93期,并邀请到清华大学博士生张金涛,直播分享《SageAttention & Sparse-Linear Attention & SpargeAttention:通过量化与稀疏性实现高效注意力机制》。
本次 Talk 将聚焦于如何将这两种技术应用于加速注意力算子,主要介绍:
1、SageAttention(V1、V2、V3),首个基于量化的注意力加速方法

https://github.com/thu-ml/SageAttention
2、SpargeAttention 与SLA(Sparse-Linear Attention),两种分别支持免训练与可微调的稀疏注意力解决方案

https://github.com/thu-ml/SpargeAttn


https://github.com/thu-ml/SLA
分享嘉宾
张金涛,清华大学计算机系博士生,师从朱军教授与陈键飞教授。其研究方向包括大模型训练与推理加速以及数据管理。在 ICLR、ICML、NeurIPS、SIGMOD、VLDB、ICDE 等国际顶级会议上发表多篇第一作者论文。其代表性工作 SageAttention(V1、V2、V3) 相较于 FlashAttention 实现了 3–5 倍的即插即用加速效果,并已被多个开源与商用大模型广泛采用,包括 Vidu、CogVideoX、Mochi、Wan、HunyuanVideo、Flux、Qwen 等。同时也被 Nvidia、AMD、Google、Meta、字节跳动、生数科技 等公司实际采用,创造了大量的直接经济效益。
主题提纲
SageAttention & Sparse-Linear Attention & SpargeAttention:通过量化与稀疏性实现高效注意力机制
1、注意力计算的低精度量化与稀疏性概述
2、基于量化的注意力加速方法:SageAttention(V1、V2、V3)
3、支持免训练与可微调的稀疏注意力 Sparse-Linear Attention & SpargeAttention
4、AMA (Ask Me Anything)环节
直播时间
11月29日(周六)10:00 - 11:00