ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系

发布于 2025-11-13
·
121 次阅读
·
·

直播回放

刘洪博

同济大学计算机学院博士生

直播平台

YouTube

哔哩哔哩

视频号

相关资源

演示文稿 (PPT)

直播配套幻灯片

暂未提供

11月18日（周二）晚8点，青稞Talk 第90期，同济大学博士生刘洪博，将直播分享《ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系》。

论文：ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models
链接：https://arxiv.org/abs/2506.21356
代码：https://github.com/Vchitect/ShotBench/tree/main

本次分享围绕 ShotBench：首个面向电影摄影语言理解的评测—训练一体化框架。我们构建了覆盖电影摄影8大核心维度的基准，并系统评测了24个主流多模态模型，发现现有模型在该领域的性能缺陷。

为此，我们进一步构建了大规模训练集 ShotQA，并提出以 SFT+GRPO 训练的 ShotVL，在各维度与总体结果上均取得领先表现。

本期Talk将聚焦任务构建、评测框架、能力分析与实际应用，展示多模态模型在专业电影摄影语言理解中的潜力与挑战。

分享嘉宾

刘洪博，同济大学计算机学院博士生，上海AI Lab访问学生，合作导师赵生捷教授、刘子纬教授。研究方向为多模态感知、推理及生成。

主题提纲

ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系

1、现有 24个主流 VLMs 在实际电影理解方面的深度评测
2、ShotBench：面向电影摄影语言理解的评测—训练一体化框架
3、专为电影摄影理解的 ShotVL 及其训练策略：SFT+GRPO
4、性能评估及消融研究

直播时间

11月18日(周二)20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号：青稞AI、Bilibili：青稞AI】上进行，扫码对暗号：" 1118 "，报名进群！

同时，嘉宾已经入驻青稞社区·知识星球，想要提问交流的朋友可以加入星球！