青稞Talk

这是你的默认分类,如不需要,删除即可。

  • 线性轨迹:揭示 LLM 强化学习中的高效捷径
    · 青稞Talk

    线性轨迹:揭示 LLM 强化学习中的高效捷径

    LLM RL 训练轨迹竟然是线性的?Miaow Lab 最新工作:无需继续训练,直接“预测”未来模型! 研究发现,在RLVR训练过程中,LLM的权重和输出概率演化呈现出显著的线性特征,理论分析发现,这源于低学习率、大Batch Size及Adam优化器的特性。说明昂贵的RLVR存在大量冗余计算。 基

  • BOAD:引入多臂老虎机,自动化搜索层级结构的多 Agent 架构设计
    · 青稞Talk

    BOAD:引入多臂老虎机,自动化搜索层级结构的多 Agent 架构设计

    大型语言模型(LLM)展现出强大的推理与编程能力,但在真实世界的软件工程(SWE)任务上仍难以泛化。这类问题往往涉及长时序决策,并且具有明显的 Out of Distribution问题。 现有系统通常依赖单一智能体处理 SWE 任务。它需要在一条推理链中同时进行需求理解、浏览大型代码库以及实现修复

  • JustRL: 用"最笨"的 RL 方法刷新 1.5B 推理模型新基线
    · 青稞Talk

    JustRL: 用"最笨"的 RL 方法刷新 1.5B 推理模型新基线

    如果有人说:不用分阶段训练、不搞课程学习、不动态调参,只用最基础的 RL 配方也能达到不错的性能,会是怎样的结果? 我们团队用两个 1.5B 模型做了这个尝试。结果在 9 个数学推理基准上达到了 54.87% 和64.32% 的新基线,算力只用了一半,训练过程也很平稳,4000步没遇到什么大问题。 更有趣的是,当我们试着加入一些"应该有用"的优化时,性能反而下降了。也许在某些情况下,简单的方法充分训练后,效果可能比我们预期的要好。这个工作最大的 novelty,也许就在于没有 novelty。

  • GDPO:解决 GRPO  在多奖励 RL 训练中的"优势崩溃"问题
    · 青稞Talk

    GDPO:解决 GRPO 在多奖励 RL 训练中的"优势崩溃"问题

    随着大模型能力的不断提升,越来越多的研究开始在RL(强化学习)训练中同时优化多种偏好(如正确性、格式、长度、bug ratio等)。 我们发现多奖励强化学习(multi-reward RL)中经常会遇到训练不稳定的问题,并非主要源于奖励设计或权重冲突,而是优势信号在归一化过程中被“压扁”,导致分辨率下降,提出“advantage collapse”这一关键问题。 传统 GRPO 在多奖励场景下的 group-wise normalization 会使不同奖励组合的样本难以区分,削弱学习方向。 为此,研究提出 GDPO,通过逐奖励解耦归一化保留细粒度优势差异,并在聚合后进行 batch 归一化以稳定尺度。实验表明,GDPO 在工具调用、数学推理和代码推理任务中显著提升了训练稳定性与最终性能。 该工作指出,多目标 RL 的核心在于保持训练信号清晰度,为推理模型与智能体训练提供了更可诊断、可复用的方法论。

  • The Prism Hypothesis 视觉统一表征假说:从语义到像素的统一自编码(UAE)
    · 青稞Talk

    The Prism Hypothesis 视觉统一表征假说:从语义到像素的统一自编码(UAE)

    视觉模型长期面临语义抽象与像素细节难以统一建模的问题,现有要么擅长理解,要么擅长生成,却难以兼得。 像 ViT、ResNet 这样的语义模型,能精准识别图像中的物体类别,却无法重建出一张清晰的图片; 而像 MAE、GAN 或扩散模型这样的生成系统,虽能合成逼真的像素细节,却常常“看不懂”自己画的是什

  • Decoupled DMD & DMDR:  在扩散模型步数蒸馏的实践及 Z-Image-Turbo 应用
    · 青稞Talk

    Decoupled DMD & DMDR: 在扩散模型步数蒸馏的实践及 Z-Image-Turbo 应用

    扩散模型(Diffusion Models)在视觉生成领域取得了举世瞩目的成就,但其昂贵的迭代采样过程——通常需要几十甚至上百步推理——极大限制了实时应用部署。 近期,关于扩散模型蒸馏(DMD) 的两篇重量级论文引发了学术界与工业界的广泛关注。它们不仅刷新了 4 步成像的质量极限,更从根本上重新定义

  • 从 TRPO 到 SAPO:大模型 RL 算法演进
    · 青稞Talk

    从 TRPO 到 SAPO:大模型 RL 算法演进

    引言 在大模型后训练阶段,强化学习(Reinforcement Learning, RL)已成为提升模型性能的关键技术。从早期的PPO到最新的SAPO,算法演进始终围绕训练稳定性、样本效率和计算开销三大核心挑战展开。 1 理论基石:TRPO与策略优化基础 1.1 TRPO的核心思想 信任域策略优化(

  • TRPO重生:大模型时代的信任域策略优化
    · 青稞Talk

    TRPO重生:大模型时代的信任域策略优化

    在大型语言模型(LLM)的强化学习(RL)阶段,特别是人类反馈强化学习(RLHF)中,我们追求策略 \pi_\theta 的持续优化。 然而,LLM 的复杂性和分布式训练特性,带来了一系列独特挑战,这些挑战在数学上可以统一归结为一个核心问题:策略部署(rollout)与策略更新(\pi_\theta

  • SANA-Series:探索图像视频扩散模型的高效设计与加速
    · 青稞Talk

    SANA-Series:探索图像视频扩散模型的高效设计与加速

    随着 GenAI 视觉模型(如 Sora 2、Google Nano Banana)的爆炸式发展,其惊人的效果背后是庞大的计算资源消耗。图像和视频模型的推理 FLOPs 甚至远超 LLM,导致部署成本高昂,难以普及。 SANA系列模型作为高效生成式基础模型的前沿探索,通过引入线性注意力(Linear

  • 从 BF16 到 FP16:如何解决RL训练-推理不匹配问题
    · 青稞Talk

    从 BF16 到 FP16:如何解决RL训练-推理不匹配问题

    大语言模型(LLM)的强化学习(RL)微调常因训练与推理策略间的数值不匹配而面临训练不稳定的问题。相比在算法上引入重要性采样来打补丁,我们发现直接从根源上提高浮点数的精度更加有效。 论文:Defeating the Training-Inference Mismatch via FP16 链接:ht

  • Generative RLHF-V: 面向多模态 RLHF 的人类意图对齐框架
    · 青稞Talk

    Generative RLHF-V: 面向多模态 RLHF 的人类意图对齐框架

    训练与人类意图对齐的多模态大模型是一个长期挑战。传统的基于分数的奖励模型在强化学习(RLHF)中存在准确性低、泛化性弱和可解释性差等问题。 11月15日(周六)上午10点,青稞社区和减论平台将联合组织青稞Talk 第89期,并邀请到北京大学博士生周嘉懿,直播分享《Generative RLHF-V:

  • UniLat3D:几何–外观统一VAE的单阶段 3D 生成框架
    · 青稞Talk

    UniLat3D:几何–外观统一VAE的单阶段 3D 生成框架

    高保真三维资产生成在多个行业中至关重要。尽管近期的三维预训练模型在生成逼真内容方面表现出强大能力,但大多数模型基于diffusionmodels,并采用“两阶段”流程:先生成几何结构,再合成外观。这种解耦式设计常导致几何与纹理的不对齐,以及较高的计算成本。 论文:UniLat3D:Geometry-

  • 从 DeepSeek-OCR 到 Glyph:深入理解图像-文本压缩技术
    · 青稞Talk

    从 DeepSeek-OCR 到 Glyph:深入理解图像-文本压缩技术

    长文本建模在智能体、文档问答等任务中具有重要意义,但传统方法在扩展上下文窗口时往往面临计算与内存开销巨大的挑战。 近期,视觉文本压缩(光学文本压缩)的概念因 DeepSeek-OCR 的提出而备受关注,其证明了文本信息可通过图像形式实现近乎无损的压缩与恢复。 在这一背景下,我们的同期工作 Glyph

  • OpenMoE 2: Sparse Diffusion Language Models
    · 青稞Talk

    OpenMoE 2: Sparse Diffusion Language Models

    11月4日(周二)晚8点,青稞Talk 第85期,NUS AI Researcher倪瑾杰,将直播分享《OpenMoE 2: Sparse Diffusion Language Models》,聊一聊为什么 Diffusion MoE 可能是下一代大模型架构方向。 分享嘉宾 倪瑾杰,NUS AI R

  • SimpleVLA-RL:简单可拓展的VLA强化学习训练
    · 青稞Talk

    SimpleVLA-RL:简单可拓展的VLA强化学习训练

    VLA模型已成为使机器人在真实环境中解决各类复杂操作任务极具前景的新范式,其发展仍受限于数据稀缺与泛化能力不足等问题,而强化学习能缓解数据依赖并显著提升模型性能与泛化性,正受到广泛关注。 本次报告将解读所提出的专为VLA模型设计的高效强化学习框架SimpleVLA-RL,内容主要分为三部分: • 首

  • 统一 SFT & RL:迈向大型语言模型后训练的统一视角
    · 青稞Talk

    统一 SFT & RL:迈向大型语言模型后训练的统一视角

    10月28日(周二)晚8点,青稞Talk 第83期,清华大学博士生吕兴泰,将直播分享《统一 SFT & RL:迈向大型语言模型后训练的统一视角》。 分享嘉宾 吕兴泰,清华大学二年级博士生,导师为周伯文教授。研究方向为大语言模型架构优化、强化学习和高效训练技术。在ACL,EMNLP,NeurIPS,I

  • OpenCUA:用于构建 Computer-Use Agent 的开源框架
    · 青稞Talk

    OpenCUA:用于构建 Computer-Use Agent 的开源框架

    来帮社区的同学“还愿”了!!! OpenCUA 是港大联合月之暗面提出的一个全面的开源框架,旨在扩展CUA的数据和基础模型,使用户可以高效、低门槛开发自主操作电脑的Agent。 论文:OpenCUA: Open Foundations for Computer-Use Agents 链接:https

  • MemGen:生成式隐式记忆,Agent Memory 的第三种可能
    · 青稞Talk

    MemGen:生成式隐式记忆,Agent Memory 的第三种可能

    更多解读请阅读:最新成果!Agent记忆的第三种可能:生成式隐式记忆 10月16日(周四)晚8点,青稞Talk 第81期,新加坡国立大学博士生张桂彬,将直播分享最新成果《MemGen:生成式隐式记忆,Agent Memory 的第三种可能》。 分享嘉宾 张桂彬是新加坡国立大学计算学院博士研究生,导师

  • RL for LRMs:探讨面向推理模型的 RL 最新研究
    · 青稞Talk

    RL for LRMs:探讨面向推理模型的 RL 最新研究

    10月21日(周二)晚8点,青稞Talk 第80期,清华大学博士生张开颜,将直播分享《RL for LRMs:探讨面向推理模型的 RL 最新研究》。 分享嘉宾 张开颜,清华大学三年级博士生,导师为周伯文教授。研究方向为大语言模型测试时扩展(Test-time Scaling)、强化学习和多智能体协同

  • “知人者智”:以用户为中心的智能体交互与训练
    · 青稞Talk

    “知人者智”:以用户为中心的智能体交互与训练

    10月18日(周六)上午10点,青稞Talk 第79期,伊利诺伊大学香槟分校 (UIUC) 博士生钱成,将直播分享《“知人者智”:以用户为中心的智能体交互与训练》。 分享嘉宾 钱成,伊利诺伊大学香槟分校 (UIUC) 二年级博士生,导师为季姮教授。本科就读于清华大学计算机系,导师为刘知远教授。目前工

  • 从 LLM-RL 到 Agentic RL:如何让语言模型成为自主智能体
    · 青稞Talk

    从 LLM-RL 到 Agentic RL:如何让语言模型成为自主智能体

    9月18日(周四)晚8点,青稞Talk 第78期,新加坡国立大学博士生张桂彬,将直播分享《从 LLM-RL 到 Agentic RL:如何让语言模型成为自主智能体》。 分享嘉宾 张桂彬是新加坡国立大学计算学院博士研究生,导师为颜水成教授,研究方向为Multi-Agent System,Agent M

  • Theory of Agent: From Definition, to Behavior and Objective
    · 青稞Talk

    Theory of Agent: From Definition, to Behavior and Objective

    9月9日(周二)晚8点,青稞Talk 第77期,香港中文大学王鸿儒博士,将直播分享《Theory of Agent: From Definition, to Behavior and Objective》。 分享嘉宾 王鸿儒博士于香港中文大学获得博士学位,导师为黄锦辉教授(ACL Fellow),研

  • NeMo RL:让大规模 MoE 模型权重 Refit 加速 10 倍
    · 青稞Talk

    NeMo RL:让大规模 MoE 模型权重 Refit 加速 10 倍

    9月6日(周六)上午10点,青稞Talk 第76期,英伟达NeMo团队高级深度学习算法工程师李之愈,以及高级产品经理高文雯,将直播分享《NeMo RL:让大规模 MoE 模型权重 Refit 加速 10 倍》。 分享嘉宾 李之愈是英伟达NeMo团队高级深度学习算法工程师,专注于大语言模型预训练以及后

  • FlashRL:探讨现代 RL 框架中推理与训练的错位问题及解决方案
    · 青稞Talk

    FlashRL:探讨现代 RL 框架中推理与训练的错位问题及解决方案

    8月30日(周六)上午11点,青稞Talk 第75期,加州大学圣地亚哥分校(UCSD)博士生姚峰,将直播分享《FlashRL:探讨现代 RL 框架中推理与训练的错位问题及解决方案》。 分享嘉宾 姚峰,加州大学圣地亚哥分校(UCSD)二年级博士生,导师是商静波教授,曾在微软研究院Deep Learni

  • ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架
    · 青稞Talk

    ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架

    8月23日(周六)上午10点,青稞Talk 第74期,淘天集团未来生活实验室算法专家王维埙博士,爱橙科技智能引擎算法平台大模型强化学习框架工程师熊绍潘,将直播分享《ROLL:面向 Agentic 场景的生产级大规模强化学习训练框架》。 代码:https://github.com/alibaba/RO

  • Clothed Human Body Fitting: A Journey to ETCH
    · 青稞Talk

    Clothed Human Body Fitting: A Journey to ETCH

    8月16日(周六)上午10点,青稞Talk 第72期,西湖大学修宇亮实验室访问学生李博谦,将直播分享 ICCV 2025 Highlight Paper 成果《ETCH: 通过等变紧度向量将人体拟合推广到穿衣人体的方法》。 论文:ETCH: Generalizing Body Fitting to

  • 大模型训练流水线并行四部曲:吞吐、内存、负载均衡与线性扩展
    · 青稞Talk

    大模型训练流水线并行四部曲:吞吐、内存、负载均衡与线性扩展

    8月5日晚8点,青稞Talk 第67期,Sea AI Lab(新加坡)算法工程师,新加坡国立大学博士生万信逸,将直播分享《大模型训练流水线并行四部曲:吞吐、内存、负载均衡与线性扩展》。 分享嘉宾 万信逸,Sea AI Lab(新加坡)算法工程师,新加坡国立大学博士生,专注机器学习系统领域的创新与突破

  • Hi3DGen:法线为桥,为高清三维几何生成另辟蹊径
    · 青稞Talk

    Hi3DGen:法线为桥,为高清三维几何生成另辟蹊径

    7月22日晚8点,青稞Talk 第65期,香港中文大学(深圳)GAP实验室博士生叶崇杰,将直播分享《Hi3DGen:法线为桥,为高清三维几何生成另辟蹊径》。 分享嘉宾 叶崇杰, 香港中文大学(深圳)GAP实验室在读博士, 师从韩晓光教授。 主题提纲 Hi3DGen:法线为桥,为高清三维几何生成另辟蹊

  • MindCube:空间智能的实现路径,探究 VLMs 构建稳健空间心理模型的能力
    · 青稞Talk

    MindCube:空间智能的实现路径,探究 VLMs 构建稳健空间心理模型的能力

    李飞飞&谢赛宁空间智能新作!“认知地图+语言推理+RL优化”是逼近人类空间认知能力的有效路径 7月19日上午10点,青稞Talk 第64期,纽约大学访问学生尹柏乔和西北大学博士生王启能,将直播分享他们与李飞飞&谢赛宁等人合作的,在空间智能领域上的最新成果:MindCube,探讨空间智能可能的新路径。

  • ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界
    · 青稞Talk

    ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界

    7月12日上午10点,青稞Talk 第62期,英伟达公司研究员刁诗哲,将直播分享《ProRL: 延长强化学习训练框架,拓展大语言模型的推理边界》。 分享嘉宾 刁诗哲,英伟达公司研究员,曾以访问学者身份在伊利诺伊大学厄巴纳-香槟分校从事研究,并在字节跳动人工智能实验室与创新工场人工智能研究院实习。研究

  • GUI-Reflection:让多模态 GUI 智能体获得反思纠错能力的训练框架
    · 青稞Talk

    GUI-Reflection:让多模态 GUI 智能体获得反思纠错能力的训练框架

    GUI-Reflection,是一个开源的,让端到端多模态GUI模型学会自我反思和纠错的自动化框架。GUI-Reflection在智能体的各个训练阶段引入 “反思与纠错”机制,这一机制贯穿预训练、监督微调和在线训练全过程,模拟了人类“犯错→反思→重试”的认知过程,使模型在面对真实环境中的不确定性时,

  • 大模型推理强化学习中的熵机制
    · 青稞Talk

    大模型推理强化学习中的熵机制

    往期解读:聊聊在大模型推理强化学习中熵机制上的探索 强化学习已经成为大模型智能跃升的下一个增长点,在这个背景下,本文旨在解决将强化学习用于大语言模型推理时面临的一个主要障碍——策略熵塌缩问题。 这种现象在大量未引入熵干预的强化学习训练中普遍出现,表现为策略熵在训练初期急剧下降,探索能力随之减弱,并始

  • Virtual Community 虚拟社区:面向人、机器人与社会的开放世界模拟平台
    · 青稞Talk

    Virtual Community 虚拟社区:面向人、机器人与社会的开放世界模拟平台

    人工智能与机器人技术的飞速发展,正在引领人类社会迈向一个人与机器人共处的新阶段,这将带来深刻的社会变革与挑战。 为探索这一未来,来自马萨诸塞大学阿默斯特分校、约翰霍普金斯大学和卡内基梅隆大学的研究者构建了“虚拟社区”平台——一个基于真实地理场景和通用物理引擎的开放世界模拟环境。 在这一平台中,研究者

  • Fast-dLLM:无需重训的扩散大语言模型推理加速
    · 青稞Talk

    Fast-dLLM:无需重训的扩散大语言模型推理加速

    Fast-dLLM 是NVIDIA联合香港大学、MIT等机构推出的扩散大语言模型推理加速方案。 其通过分块KV缓存与置信度感知并行解码技术,在无需重新训练模型的前提下,实现了推理速度的突破性提升——在LLaDA模型1024 token长文本生成任务中,端到端推理速度狂飙27.6倍,整体耗时从266秒

  • InternVL3,GPT-4o开源平替:多模态通用感知大模型的技术演进与应用探索
    · 青稞Talk

    InternVL3,GPT-4o开源平替:多模态通用感知大模型的技术演进与应用探索

    发展更为通用的智能技术是下一代人工智能的重要突破口,学习一个可以广泛应用于各种模态和各种任务的通用感知模型是发展更为通用的智能技术的重要步骤。 6月21日10:00点,青稞Talk第56期,复旦大学博士生王玮赟,将直播分享《InternVL3,GPT-4o开源平替:多模态通用感知大模型的技术演进与应

  • 生成模型中的极简概念擦除
    · 青稞Talk

    生成模型中的极简概念擦除

    6月16日20:00,青稞Talk 第55期,新加坡国立大学博士生张扬,将直播分享《生成模型中的极简概念擦除》。 分享嘉宾 张扬,慕尼黑工业大学计算机专业硕士,新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问,并在微软亚洲研究院及美国运通新加坡数据中心实习。研究成果发表在ICML、NeurI

  • BAGEL:统一生成理解的多模态基础模型
    · 青稞Talk

    BAGEL:统一生成理解的多模态基础模型

    6月12日20:00,青稞Talk 第54期,BAGEL 一作、中国科学院博士生黎昆昌,将直播分享《BAGEL:统一生成理解的多模态基础模型》。 关于 BAGEL 的更多细节请参考:字节Seed开源BAGEL: 更聪明的统一生成理解模型 分享嘉宾 黎昆昌,中国科学院博士五年级,导师是乔宇、王亚立,研

  • Sparse VideoGen:无需重新训练的 DiTs 推理加速框架
    · 青稞Talk

    Sparse VideoGen:无需重新训练的 DiTs 推理加速框架

    5月29日上午9点,青稞Talk 第52期,加州大学伯克利分校计算机科学博士生席浩诚,将直播分享《Sparse VideoGen:无需重新训练的视频扩散 Transformer 推理加速框架》。 分享嘉宾 席浩诚,加州大学伯克利分校计算机科学博士一年级学生,师从Kurt Keutzer教授,研究方向

  • MoLE & SpeCache:大语言模型端侧部署的架构与算法
    · 青稞Talk

    MoLE & SpeCache:大语言模型端侧部署的架构与算法

    LM在多个领域表现出强大能力,尽管在线服务广泛应用,但出于隐私和离线需求,个人常需要端侧部署。然而,现有的基于MoE和Transformer架构的LLM在端侧部署时面临显存容量不足的挑战。 5月22日20:00,青稞Talk 第50期,北京大学智能学院博士生、华为诺亚方舟实验室实习生节世博,将直播分

  • verl 源码解读 与 HybridFlow 编程范式讲解
    · 青稞Talk

    verl 源码解读 与 HybridFlow 编程范式讲解

    5月19晚8点,verl core contributor 童雨轩,将直播分享《verl 源码解读 与 HybridFlow 编程范式讲解》。 本次 Talk 会从entrypoint(例如 main_ppo.py)入手,按程序执行顺序讲解 verl 的主要逻辑(类似 debugger 视角,但经过

  • 从 TTS 到 TTRL:无标签数据强化学习探索与展望
    · 青稞Talk

    从 TTS 到 TTRL:无标签数据强化学习探索与展望

    在预训练 Scaling Law之后,测试时扩展(Test-time Scaling, TTS)已成为提升大模型推理能力的关键。OpenAI o1与DeepSeek R1等模型通过强化学习(RL)进行推理的范式,充分展现了TTS的潜力。然而,推理模型的性能上限仍深受基础模型(其架构与预训练数据)的制

  • Free4D:无需微调的 4D 场景生成新框架
    · 青稞Talk

    Free4D:无需微调的 4D 场景生成新框架

    Free4D,是由华中科技大学、MMLab@NTU以及湾大的研究者最新提出的一种无需调整的新型框架,可用于从单个图像生成 4D 场景。 Paper:Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency Ab

  • B-STaR & SimpleRL-Zoo:通过强化学习自我提升推理性能和效率
    · 青稞Talk

    B-STaR & SimpleRL-Zoo:通过强化学习自我提升推理性能和效率

    基于强化学习框架的自我提升正日益成为增强模型推理能力的关键后训练方法,这一方法直接促成了DeepSeek-R1的成功。 青稞Talk 第45期,香港科技大学(HKUST)计算机系博士生曾伟豪,将直播分享《B-STaR & SimpleRL-Zoo:通过强化学习自我提升推理性能和效率》。 B-STaR

  • InferCept、Preble&Cognify:面向下一代 AI Agent 工作流系统的构建
    · 青稞Talk

    InferCept、Preble&Cognify:面向下一代 AI Agent 工作流系统的构建

    主讲嘉宾 张怡颖,现任加州大学圣地亚哥分校计算机科学与工程系副教授。她的研究领域涵盖人工智能系统与数据中心云计算系统,当前主要致力于构建下一代的AI Agent系统。她曾获得OSDI最佳论文奖、SYSTOR最佳论文奖、美国国家科学基金会CAREER奖,以及来自谷歌、Meta、亚马逊、英特尔、VMwa

  • COAT:显存高效的 FP8 训练,实现高效深度学习
    · 青稞Talk

    COAT:显存高效的 FP8 训练,实现高效深度学习

    3月22日上午11点 ,青稞Talk 第42期,COAT 第一作者、加州大学伯克利分校计算机科学博士生席浩诚,将直播分享《COAT:显存高效的 FP8 训练,实现高效深度学习》。 分享嘉宾 席浩诚是加州大学伯克利分校计算机科学博士一年级学生,导师是Kurt Keutzer教授,研究方向为大型语言模型

  • PC-Agent:面向复杂 PL 任务的多模态智能体框架
    · 青稞Talk

    PC-Agent:面向复杂 PL 任务的多模态智能体框架

    3月15日上午11点,青稞Talk 第41期,阿里通义实验室高级算法工程师张熙,将直播分享《PC-Agent:面向复杂 PL 任务的多模态智能体框架》。 分享嘉宾 张熙,博士毕业于中科院自动化研究所,目前担任阿里通义实验室高级算法工程师,负责多模态智能体Mobile-Agent等工作。在国际顶级期刊

  • 基于 LightLLM 的 DeepSeek R1/V3 模型部署实战
    · 青稞Talk

    基于 LightLLM 的 DeepSeek R1/V3 模型部署实战

    3月8日上午11点,青稞Talk 第40期,商汤科技大模型工具体系团队研究员、LightLLM 核心开发人员白世豪,将直播分享《基于 LightLLM 的 DeepSeek R1/V3 模型部署实战》。 分享嘉宾 白世豪,商汤科技大模型工具体系团队研究员,LightLLM核心开发人员,主要负责大语言

  • PRIME: 结合隐式过程奖励的强化学习
    · 青稞Talk

    PRIME: 结合隐式过程奖励的强化学习

    2月22日上午11点,青稞Talk 第39期,上海人工智能实验室青年科学家崔淦渠,将直播分享《PRIME: 结合隐式过程奖励的强化学习》。 主讲嘉宾 崔淦渠,上海人工智能实验室青年科学家,博士毕业于清华大学计算机系,导师为刘知远副教授。研究方向为大语言模型的对齐与强化学习技术。在ICML, Neur

  • Satori:通过训练LLM做自回归搜索来增强推理能力
    · 青稞Talk

    Satori:通过训练LLM做自回归搜索来增强推理能力

    2月15日上午11点,青稞Talk 第38期,Satori第一作者、MIT博士生沈茂昊,将直播分享《Satori:通过训练LLM做自回归搜索来增强推理能力》。 主讲嘉宾 沈茂昊,MIT EECS系四年级博士生,长期和MIT-IBM Watson AI lab 合作,本科毕业于UIUC ECE系。研究

  • Motion Dreamer:面向自动驾驶与物理世界对齐的视频生成模型
    · 青稞Talk

    Motion Dreamer:面向自动驾驶与物理世界对齐的视频生成模型

    1月14日19:00,青稞Talk 第37期,香港科技大学(广州)博士生许添硕,将直播分享《Motion Dreamer:面向自动驾驶与物理世界对齐的视频生成模型》。 主讲嘉宾 许添硕,香港科技大学(广州)博士生,导师为陈颖聪教授,研究兴趣是自动驾驶、视频生成。 主题提纲 Motion Dreame

  • Follow Family:可控视频生成方法探索与应用
    · 青稞Talk

    Follow Family:可控视频生成方法探索与应用

    主讲嘉宾 马跃,香港科技大学计算机博士生,清华大学电子信息硕士,主要研究领域是视频生成、图片生成等,曾在百度,腾讯 AI Lab,腾讯混元作为算法研究实习,在NeurIPS,Siggraph,AAAI,CVPR,TMM等发表多篇高水平文章,曾经获得北京市优秀毕业生等荣誉称号。 主题提纲 Follow

  • K-Sort Arena:视觉生成模型的高效人类偏好竞技场
    · 青稞Talk

    K-Sort Arena:视觉生成模型的高效人类偏好竞技场

    12月24日20点,青稞Talk 第34期,中国科学院自动化研究所博士生、新加坡国立大学访问博士生李志凯,将直播分享《K-Sort Arena:视觉生成模型的高效人类偏好竞技场》。 主讲嘉宾 李志凯,中国科学院自动化研究所博士生,新加坡国立大学访问博士生。研究方向为高效深度学习和模型压缩,以第一作者

  • XGrammar:高效实现 LLM灵活且可移植的结构化生成
    · 青稞Talk

    XGrammar:高效实现 LLM灵活且可移植的结构化生成

    12月21日11点,青稞Talk 第33期,CMU 博士生董易昕,将直播分享《XGrammar:高效实现 LLM灵活且可移植的结构化生成》。 分享嘉宾 董易昕,卡内基梅隆大学计算机科学系的一年级博士生,导师为陈天奇教授;本科毕业于上海交通大学计算机科学专业(ACM班);研究聚焦于机器学习与系统的交叉

  • LLMC:大语言模型压缩工具的开发实践
    · 青稞Talk

    LLMC:大语言模型压缩工具的开发实践

    12月16日晚8点,青稞Talk第32期,商汤科技研究院谷石桥和雍洋两位模型压缩研究员,将对LLMC进行直播分享,主题为《LLMC:大语言模型压缩工具的开发实践》。 他们将从工具框架设计,常用算法解读和工具使用方式等角度,为大家详细讲解LLMC及实践,希望大家可以从中获益。 主讲嘉宾 谷石桥,商汤科

  • Rectified Flow:矫正流生成式模型的概念及应用实践
    · 青稞Talk

    Rectified Flow:矫正流生成式模型的概念及应用实践

    12月14日11点,青稞Talk 第31期,深度求索(DeepSeek)研究员、UT Austin博士刘星超,将直播分享《Rectified Flow:矫正流生成式模型的概念及应用实践》。 主讲嘉宾 刘星超,深度求索(DeepSeek)研究员,UT Austin博士,师从刘强教授。研究兴趣是生成式模

  • OminiParser:基于纯视觉的 GUI Agent
    · 青稞Talk

    OminiParser:基于纯视觉的 GUI Agent

    11月30日上午11点,微软研究院 AI Frontiers 实验室高级研究员鲁亚东,将直播分享《OminiParser:基于纯视觉的 GUI Agent》。 主讲嘉宾 鲁亚东,微软研究院 AI Frontiers 实验室高级研究员。研究兴趣主要集中在大型视觉语言模型上,专注于构建能够在图形用户界面

  • VILA^2 :视觉语言模型能力的自我提升
    · 青稞Talk

    VILA^2 :视觉语言模型能力的自我提升

    主讲嘉宾 方云浩,本科毕业于浙江大学,硕士毕业于UCSD(苏昊教授),自24年2月起在Nvidia VILA团队实习(陆垚博士、韩松教授)。主要科研方向是大模型相关的1. 推理能力(通过探索提升推理上限: Unleashing the Creative Mind;通过演绎验证获得可靠思维链: Ded

  • GenAD & Vista:构建通用可泛化的自动驾驶世界模型
    · 青稞Talk

    GenAD & Vista:构建通用可泛化的自动驾驶世界模型

    10月17日19点,青稞Talk 第27期,香港科技大学在读博士高深远,将直播分享《GenAD & Vista:构建通用可泛化的自动驾驶世界模型》。 主讲嘉宾 高深远,香港科技大学在读博士,研究兴趣主要围绕具身场景中世界模型的构建及应用。曾在CVPR、NeurIPS、ECCV以第一作者身份发表多篇论

  • VITA:开源交互式多模态基础大模型
    · 青稞Talk

    VITA:开源交互式多模态基础大模型

    10月14日19点,青稞Talk 第26期,VITA 第一作者,南京大学智能科学与技术学院研究员、助理教授、博导傅朝友,将直播分享《VITA:开源交互式多模态基础大模型》。 主讲嘉宾 傅朝友,南京大学智能科学与技术学院研究员,助理教授,博导。2022年博士毕业于中国科学院自动化研究所,2022年-2

  • LLMC:大语言模型的量化基准
    · 青稞Talk

    LLMC:大语言模型的量化基准

    10月11日晚7点,青稞Talk 第25期,商汤科技算法实习生、香港科技大学准博士生黄雨石,将直播分享《LLMC:大语言模型的量化基准》。 主讲嘉宾 黄雨石,本科毕业于北京航空航天大学,即将进入香港科技大学攻读计算机博士学位。研究方向为高效的AIGC模型,神经网络压缩与加速等,目前已在CVPR, E

  • 使用CAMEL Agents构建GraphRAG及应用实践
    · 青稞Talk

    使用CAMEL Agents构建GraphRAG及应用实践

    9月26日19点,青稞Talk 第24期,Eigent AI Founding Engineer、CAMEL AI开源多智能体框架核心贡献者范文栋,将直播分享《使用 CAMEL Agents 构建 GraphRAG 及应用实践》 主讲嘉宾 范文栋,Eigent AI Founding Enginee

  • CogVideoX 视频生成开源模型上手实践
    · 青稞Talk

    CogVideoX 视频生成开源模型上手实践

    9月23日20点,青稞Talk 第23期,智谱AI算法工程师,CogVideoX作者之一张昱轩,将直播分享《CogVideoX 视频生成开源模型上手实践》 主讲嘉宾 张昱轩,智谱AI算法工程师,CogVideoX作者之一;智谱多个开源仓库的核心贡献者。 主题提纲 CogVideoX 视频生成开源模型

  • mPLUG-Owl3:探索长序列模型架构的通用多模态大模型
    · 青稞Talk

    mPLUG-Owl3:探索长序列模型架构的通用多模态大模型

    9月10日19点,青稞Talk 第22期,阿里巴巴通义实验室高级算法工程师、华东师范大学博士叶加博,将直播分享《mPLUG-Owl3:探索长序列模型架构的通用多模态大模型》。 主讲嘉宾 叶加博,华东师范大学博士,阿里巴巴通义实验室高级算法工程师,参与通义多模态大模型mPLUG家族的研发,包含多模态底

  • S-LoRA:实现多 LoRA 大模型的高效并行化推理
    · 青稞Talk

    S-LoRA:实现多 LoRA 大模型的高效并行化推理

    8月26日11点,青稞Talk第20期,UC Berkeley 博士生曹诗怡,将对 S-Lora 进行分享,主题为《S-LoRA:实现多 LoRA 大模型的高效并行化推理》。 主讲嘉宾 曹诗怡,UC Berkeley 博士生;导师是Ion Stoica和Joseph E. Gonzalez教授,主要

  • AWQ:激活值感知的LLM低位权重量化
    · 青稞Talk

    AWQ:激活值感知的LLM低位权重量化

    8月14日晚7点,青稞Talk第19期,MIT准博士生唐嘉铭,将直播分享《AWQ:激活值感知的LLM低位权重量化》。 主讲嘉宾 唐嘉铭,MIT准博士生;导师是韩松教授;此前,在上海交通大学(ACM班)获得了计算机科学学士学位;大三期间,在上海交通大学高性能计算中心实验室(EPCCLab)进行科研实习

  • InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界
    · 青稞Talk

    InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界

    8月6日晚7点,青稞Talk第18期,香港中文大学博士后、上海人工智能实验室青年科学家、“书生”系列视觉基础模型核心开发者王文海,将直播分享《InternVL 2.0:通过渐进式策略扩展开源多模态大模型的性能边界》。他将和大家一起探讨图文多模态大模型的基本原理和技术,如何利用开源套件构建强大的多模态

  • SEED-Story:生成长篇图文故事的多模态大型语言模型
    · 青稞Talk

    SEED-Story:生成长篇图文故事的多模态大型语言模型

    7月30日晚7点,青稞Talk第17期,香港科技大学(广州)博士生杨帅,将直播分享《SEED-Story:生成长篇图文故事的多模态大型语言模型》。 主讲嘉宾 杨帅,香港科技大学(广州)人工智能方向的博士研究生,导师是陈颖聪博士。他的研究方向是高效深度学习和生成模型,相关成果已发表在ICCV,ICLR

  • YOLO-World:基于视觉语言模型的实时开放词汇物体检测
    · 青稞Talk

    YOLO-World:基于视觉语言模型的实时开放词汇物体检测

    7月23日晚7点,青稞Talk第16期,华中科技大学博士生程天恒,将直播分享《YOLO-World:基于视觉语言模型的实时开放词汇物体检测》。 主讲嘉宾 程天恒,华中科技大学博士生;2019年获得华中科技大学(HUST)电子信息与通信专业的学士学位;研究兴趣包括计算机视觉、通用物体检测与分割以及多模

  • MiniCPM-V:端侧可用的GPT-4V级多模态大模型
    · 青稞Talk

    MiniCPM-V:端侧可用的GPT-4V级多模态大模型

    7月15日晚7点,青稞Talk第15期,清华大学自然语言处理实验室博士生余天予,将直播分享《MiniCPM-V:端侧可用的 GPT-4V 级多模态大模型》。 分享嘉宾 余天予,清华大学自然语言处理实验室博士生,发表AAAI、CVPR 等人工智能顶会论文多篇,主要研究方向为多模态大模型。 主题提纲 M

  • Mobile-Agent:基于多模态Agent架构的手机智能体
    · 青稞Talk

    Mobile-Agent:基于多模态Agent架构的手机智能体

    7月11日晚7点,青稞Talk第14期,阿里通义实验室高级算法专家徐海洋,将直播分享《Mobile-Agent:基于多模态Agent架构的手机智能体》。 分享嘉宾 徐海洋,阿里通义实验室高级算法专家,负责通义多模态大模型mPLUG系列工作,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模

  • LLaMA Factory:从预训练到RLHF,大模型高效训练框架
    · 青稞Talk

    LLaMA Factory:从预训练到RLHF,大模型高效训练框架

    7月8日晚7点,青稞Talk第13期,北京航空航天大学博士生郑耀威,将直播分享《LLaMA Factory:从预训练到RLHF,大模型高效训练框架》。 分享嘉宾 郑耀威,北京航空航天大学博士生。以第一作者在ACL、CVPR、AAAI、WWW等国际会议发表多篇论文,担任AAAI、EMNLP、Neura

  • PiSSA:收敛快、误差小的大模型参数高效微调方法
    · 青稞Talk

    PiSSA:收敛快、误差小的大模型参数高效微调方法

    6月13日晚7点,青稞社区组织【青稞Talk】第十期,北京大学人工智能研究院孟繁续博士,将直播分享《PiSSA:收敛快、误差小的大模型参数高效微调方法》。 分享嘉宾 孟繁续,北京大学人工智能研究院在读博士;师从张牧涵教授。曾获哈尔滨工业大学优秀毕业生,师从卢光明教授。曾就职于腾讯优图实验室任研究员,

1 2