11月18日(周二)晚8点,青稞Talk 第90期,同济大学博士生刘洪博,将直播分享《ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系》。

论文:ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models
链接:https://arxiv.org/abs/2506.21356
代码:https://github.com/Vchitect/ShotBench/tree/main
本次分享围绕 ShotBench:首个面向电影摄影语言理解的评测—训练一体化框架。我们构建了覆盖电影摄影8大核心维度的基准,并系统评测了24个主流多模态模型,发现现有模型在该领域的性能缺陷。

为此,我们进一步构建了大规模训练集 ShotQA,并提出以 SFT+GRPO 训练的 ShotVL,在各维度与总体结果上均取得领先表现。

本期Talk将聚焦任务构建、评测框架、能力分析与实际应用,展示多模态模型在专业电影摄影语言理解中的潜力与挑战。
分享嘉宾
刘洪博,同济大学计算机学院博士生,上海AI Lab访问学生,合作导师赵生捷教授、刘子纬教授。研究方向为多模态感知、推理及生成。
主题提纲
ShotBench: 面向增强MLLM摄影语言理解能力的训练与评估体系
1、现有 24个主流 VLMs 在实际电影理解方面的深度评测
2、ShotBench:面向电影摄影语言理解的评测—训练一体化框架
3、专为电影摄影理解的 ShotVL 及其训练策略:SFT+GRPO
4、性能评估及消融研究
直播时间
11月18日(周二)20:00 - 21:00
如何观看
Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行,扫码对暗号:" 1118 ",报名进群!
![]()
同时,嘉宾已经入驻青稞社区·知识星球,想要提问交流的朋友可以加入星球!
![]()