1. 首页
  2. 青稞Talk
  3. EditReward : 当 AI 学会“审美”,可控多模态生成的下一代范式

EditReward : 当 AI 学会“审美”,可控多模态生成的下一代范式

  • 发布于 2026-03-11
  • 34 次阅读

直播平台

视频号

哔哩哔哩

YouTube

相关资源

演示文稿 (PPT)

直播配套幻灯片

暂未提供

为什么开源图像编辑模型总感觉不如 GPT-4o 或 Nano-Banana 那么“听话”?核心痛点在于缺乏一个真正理解人类审美的 AI “裁判”。

3月14日(周六)上午10点,青稞 Talk 第112期,清华大学在读博士生吴科明,将直播分享《EditReward :当 AI 学会“审美”,可控多模态生成的下一代范式》。

本次分享将介绍 ICLR 2026 入选工作 EditReward。我们构建了包含 20万+ 专家级精细标注的图像编辑偏好数据集,并以此训练出了强大的奖励模型。实验显示,仅 7B 规模的 EditReward 在评估准确率上已超越 Qwen3-32B 并直逼 GPT-5。

本次 Talk 将不仅讨论如何利用高质量数据校准 AI 的“品味”,还将分享如何通过 EditReward 赋能强化学习(RLHF),以及在大规模多模态评测系统构建中的实战心得。

分享嘉宾

吴科明,清华大学在读博士生,目前专注于多模态生成(侧重Post-training 与强化学习对齐)及复杂多模态推理研究。其研究成果多次发表于ICLR、CVPR、ICCV、ACM MM 等顶会。作为核心作者,他在ICLR 2026 提出了人类对齐奖励模型 EditReward,并在CVPR 2026 推出多模态推理框架 OpenMMReasoner。曾于 微软亚洲研究院(MSRA)进行深度学术访问与研究。

主题提纲

EditReward :当 AI 学会“审美”,可控多模态生成的下一代范式

1、为什么开源图像编辑模型总是“不听话”?
2、EditReward:让 AI 学会“人类审美”的奖励模型
3、用 EditReward 驱动多模态 RLHF
4、大规模多模态评测的实战心得
5、未来方向探讨 & AMA (Ask Me Anything)

直播时间

3月14日(周六)10:00 - 11:00