1. 首页
  2. 青稞Talk
  3. ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系

ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系

  • 发布于 2025-11-13
  • 38 次阅读

直播平台

PC端

视频号

YouTube

哔哩哔哩

相关资源

演示文稿 (PPT)

直播配套幻灯片

暂未提供

11月18日(周二)晚8点,青稞Talk 第90期,同济大学博士生刘洪博,将直播分享《ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系》。

output-YjVH.gif

论文:ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models
链接:https://arxiv.org/abs/2506.21356
代码:https://github.com/Vchitect/ShotBench/tree/main

本次分享围绕 ShotBench:首个面向电影摄影语言理解的评测—训练一体化框架。我们构建了覆盖电影摄影8大核心维度的基准,并系统评测了24个主流多模态模型,发现现有模型在该领域的性能缺陷。

为此,我们进一步构建了大规模训练集 ShotQA,并提出以 SFT+GRPO 训练的 ShotVL,在各维度与总体结果上均取得领先表现。

本期Talk将聚焦任务构建、评测框架、能力分析与实际应用,展示多模态模型在专业电影摄影语言理解中的潜力与挑战。

分享嘉宾

刘洪博,同济大学计算机学院博士生,上海AI Lab访问学生,合作导师赵生捷教授、刘子纬教授。研究方向为多模态感知、推理及生成。

主题提纲

ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系

1、现有 24个主流 VLMs 在实际电影理解方面的深度评测
2、ShotBench:面向电影摄影语言理解的评测—训练一体化框架
3、专为电影摄影理解的 ShotVL 及其训练策略:SFT+GRPO
4、性能评估及消融研究

直播时间

11月18日(周二)20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行,扫码对暗号:" 1118 ",报名进群!

同时,嘉宾已经入驻青稞社区·知识星球,想要提问交流的朋友可以加入星球!