VILA^2 :视觉语言模型能力的自我提升

📅 直播时间:2024-11-23 11:00 🎥 观看直播

主讲嘉宾

方云浩,本科毕业于浙江大学,硕士毕业于UCSD(苏昊教授),自24年2月起在Nvidia VILA团队实习(陆垚博士、韩松教授)。主要科研方向是大模型相关的1. 推理能力(通过探索提升推理上限: Unleashing the Creative Mind;通过演绎验证获得可靠思维链: Deductive Verification for Chain-of-thought Reasoning);2. 推理、训练高效性(CLIP Distillation with OOD Generalization; VILA^2: VLM Augmented VLM for Self-improvement)。

主题提纲

VILA^2: 视觉语言模型能力的自我提升

  • 1、视觉语言模型研究概述
  • 2、基础模型 VILA 的初衷及架构解析
  • 3、基于自增强与专家增强的 VILA^2
  • 4、探讨VILA-U、LongVILA 以及 World Model Benchmark

成果链接

直播时间

11月23日(周六)11:00-12:00