直播预告！聊聊 DPA & LLaVA-HUD v4：多模态大模型的深度预对齐与高效视觉编码优化

即将开始

清华大学人工智能学院博士生

视频号

演示文稿 (PPT)

直播配套幻灯片

暂未提供

6月30日（周二）晚8点，青稞Talk 第134期，清华大学人工智能学院博士生方科晨，将直播分享《DPA & LLaVA-HUD v4：多模态大模型的深度预对齐与高效视觉编码优化》。

DPA 提出一种新的视觉语言模型架构：在视觉特征进入目标 LLM 前，引入小型 perceiver VLM 进行深度预对齐，使视觉表示更接近文本空间。

论文：https://arxiv.org/abs/2605.15300
代码：https://github.com/THUMAI-Lab/Deep-Pre-Alignment

该方法可无缝接入现有训练流程，在提升多模态理解与推理能力的同时，缓解文本能力遗忘，并几乎不增加推理开销。

LLaVA-UHD v4 面向高分辨率多模态大模型的视觉编码效率瓶颈，结合切片编码与 ViT 内部早期压缩，在保持下游性能接近甚至优于基线的同时，将视觉编码 FLOPs 降低 55.75%，提升高分辨率理解的实用效率。

论文：https://arxiv.org/abs/2605.08985
代码：https://github.com/THUMAI-Lab/LLaVA-UHD-v4UHD-v4

方科晨，清华大学人工智能学院一年级博士生，研究方向为高效多模态大语言模型。

1、多模态大模型的研究现状及核心瓶颈
2、新的视觉语言模型架构 DPA：重新思考视觉语言对齐
3、LLaVA-UHD v4：高分辨率视觉编码效率优化
4、多模态大模型的未来趋势探讨
5、AMA （Ask Me Anything）环节

6月30日（周二）20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号：青稞 AI】上进行进行直播，欢迎预约观看！