1. 首页
  2. 精选文章
  3. Diffusion 最新综述分享

Diffusion 最新综述分享

  • 发布于 2025-11-23
  • 5 次阅读

作者:zhuobai
https://zhuanlan.zhihu.com/p/1935370284921263679

今天跟大家分享下前段时间阅读的来自新国立 showlab 的一篇综述:

Discrete Diffusion in Large Language and Multimodal Models: A Survey
https://arxiv.org/abs/2506.13759v1

最近这两个月都在做 diffusion 的相关工作,感觉这篇很适合想入门 diffusion model 的同学来学习。这篇文章整体逻辑梳理的很清楚,我将文中部分内容做了简化与提炼,保留了对理解最关键的信息。希望大家读完能有所收获!

I. Introduction

迄今为止,LLMs 和 MLLMs 的主导范式一直是 Autoregression(AR)模型。尽管此前取得了成功,但这些以从左到右顺序生成输出的 AR 模型仍存在一些固有局限性

  • token-by-token 的解码策略天然限制了推理过程中的并行化,在效率提升方面存在瓶颈
  • 由于缺乏内建机制来施加 structural constraints(例如指定输出长度或特定格式),AR难以有效地控制输出结构
  • 由于 causal attention,AR 只能一次性、静态地感知输入的 visual 和 text。限制了模型的 selective attention,使得模型难以根据任务动态地感知信息,除非借助代价高昂的 CoT 推理或需要外部工具配合的多轮处理方式

Discrete Diffusion Large Language Models (dLLMs) 和 Discrete Diffusion Multimodal Large Language Models (dMLLMs) 近期成为比较火的研究方向。与 AR 不同,dLLMs 将生成过程视为对 token 的迭代去噪过程。该范式具有以下优势:

  • Parallel Decoding:dLLMs 在每一次去噪步骤中可以同时生成多个 token,显著加快推理速度
  • Better Controllability:dLLMs 将生成过程视为 denoising 或 infilling 任务,这种建模方式允许精确控制输出属性(response length, format,reasoning structure),可通过预定义的模板进行条件生成
  • Dynamic Perception:由于 bidirectional attention 机制,dLLMs 能在生成过程中持续修正对视觉与语言上下文的感知,能支持自适应理解能力,克服 AR 静态、单遍处理输入的局限

diffusion models 最初是为图像生成等 continuous domains 提出的,近年来被成功扩展到 discrete spaces。早期研究中学者们建立了相关的基础数学公式,引入了专门为 categorical data 设计的 token corruption schemes,验证了基于扩散的方法在多种 data 上的可行性。这一初始阶段,模型主要集中在 1B parameters。通过 simplifications 和 reparameterizations 以及结合实际的工程优化实践,the absorbing-state discrete diffusion formulation 逐渐成为开源模型所采用的主流数学框架。在这种框架下,推理过程表现为 iterative masked token prediction,训练过程则等价于 masked language modeling,loss 可以简化为 weighted 交叉熵损失。这些简化显著降低了模型在训练和推理阶段的复杂度,同时提升了其稳定性,为 large-scale diffusion language models 的发展奠定了基础

在工业界,一个重要 scalability 和 effectiveness 的突破 来自 Inception Labs 和 Google 推出的 discrete diffusion-based large language models,分别是 Mercury 和 Gemini Diffusion。在 code 和 math benchmark 中表现出与 AR 相当的性能,在解码速度上提升了10倍,每秒约生成 1000 个 token。

同时科研界也在不断的推进新的工作。dLLMs 和 dMLLMs 的发展路径类似于 AR 的演进:首先是基于大型语料训练的dLLMs(LLaDA 和 Dream),随后,利用公开可用的 dLLM 作为 backbone,发展出 dMLLMs(Dimple、LaViDa 和 LLaDA-V),通过 multimodal alignment, instruction tuning, preference learning, reasoning enhancement 进行优化。实验证明这些 dLLMs 和 dMLLMs 在相同的 scale 和 data size 下,能够媲美甚至接近同级别的AR。通过加速技术,推理速度相比 AR 有显著优势。由于其使用 full attention masks,每一步的计算成本偏高。若不加以优化,实际推理速度无法超越 AR。因此大量研究致力于将原本为 AR 设计的推理加速算法适配至 dLLMs,提升推理效率。

AR 和 diffusion 在四个不同方面的比较

II. Mathematical Formulations

这一节整理了一些具有代表性的 discrete diffusion model 的数学公式,内容比较长,感兴趣的可以去看下原文。

III. Large Discrete Diffusion Language And Multimodal Models

本节主要从 high-level 的角度回顾了一些具有代表性的工作,总共分为四类。

最近几年的 dLLMs 和 dMLLMs 的时间线

A. Discrete Diffusion Models around 1B

1.D3PM:提出了一类更灵活的 noising schedule 族,将离散扩散扩展到了更广泛的离散空间

2.DiffusionBERT: 探索训练 BERT 来逆向一个具有吸收态的离散扩散过程,引入了与 token 相关的前向噪声调度策略,以及将时间步信息嵌入 BERT 的方法

3.RDMs:L. Zheng 等人从离散扩散采样过程推导出一种等价的形式,并提出了一类新的模型 Reparameterized Discrete Diffusion Models。将 D3PM 的反向扩散过程重新表述为一个两阶段采样过程,从而大大简化了训练目标,并使文本生成过程中拥有更加灵活的解码算法

B. Large Diffusion Language Models

  • LLaDA:首个基于 discrete diffusion、可替代 AR LLM 的方案。对 masked text 逐步去噪生成文本:在前向过程中,随机 mask input token;在反向过程中,利用 Transformer 预测 masked token。这个 Transformer 与标准 LLM 相似,但取消了 causal masking,因此在预测时可以看到完整的上下文。LLaDA 证明了 dLLM 可以达到与同规模自回归 LLM 相竞争的性能

2.DIFFUSION-LLMs:利用 multi-stage(大规模预训练 → diffusive adaptation 转换为扩散生成 → instruction-tuning)构建 dLLMs。证明了 dLLMs 可作为通用语言模型的可行方案,并凸显了 scale 和 instruction-tuning 的重要性

3.DiffuGPT 与 DiffuLLaMA:将已有的 AR Transformer 转换为 dLLM,避免从零开始训练大模型的高昂成本。将参数规模从 127M 到 7B 的 AR 转换为扩散模型。提出了AR 模型的 next-token prediction 和 diffusion denoising objective 的理论关联,使两种范式在适配过程中能够对齐。在训练中仅需不到 2000 亿个 token 的 data,大幅降低训练成本。展示了通过适配方式扩展 dLLMs 的现实可行路径,有效利用已有的 AR 模型知识构建高性能的 dLLMs

4.DREAM:DREAM 7B 是目前最强大的 dLLM 之一。专为复杂推理任务而设计,同时保持了良好的效率与可扩展性。其在多个 benchmark 中表现与同规模的 AR 相当甚至更优(LLaMA3 8B 和 Qwen 2.5-7B )。DREAM 在 1B 规模的模型上系统探索了设计选项,并识别出两个尤为关键的组件:AR weight initialization;context adaptive noise scheduling

5.LLaDA 1.5:针对 dLLMs 的 RLHF,提出了 Variance-Reduced Preference Optimization, VRPO。证明了类似 RLHF 的对齐方法同样适用于 dLLMs,并指出解决 ELBO 估计的方差问题是实现高质量对齐的核心关键。

6.TESS 2:large scale,instruction-following and general-purpose 的 dLLM。整合了以往多个工作的核心思想。

C. Large Diffusion Multimodal Models

1.Dimple:是最早提出的 dMLLM 之一。其 vision encoder + Transformer LLM 的架构与现有的 Qwen-VL、LLaVA 相似。关键创新在于 two stage hybrid training。第一阶段:初始化 Dream 权重,在 vision-language instruction data 上 autoregressive fine-tuned;第二阶段:在 discrete diffusion objective 继续训练。实验发现,纯扩散训练往往不稳定,会导致 length bias 及性能下降。而通过前期的 AR 训练 warming up,训练更稳定

2.LaViDa:由一个 vision encoder 和一个 discrete diffusion Transformer 组成。image 的 context 通过一个 MLP 将这些 image embedding project 到语言模型的 space。语言模型是 LLaDA-8B 或 Dream-7B。该模型在 masked-denoising framework 中将 image token 与 text token 一致处理

3.LLaDA-V:基于 LLaDA 构建的 purely dMLLM。它集成了一个 vision encoder 以及一个 MLP connector,将视觉特征映射到 language embedding space,帮助 dLLM 同时处理 image,text。在使用相同多模态训练数据的条件下,LLaDA-V 的表现可以媲美 LLaMA3-V,并逐步缩小与 Qwen2.5-VL 之间的差距

D. Large Unified Model

1.MMaDA:采用了一种统一的扩散架构,通过 shared probabilistic formulation实现跨模态。使用单一的基于扩散的 Transformer 架构来处理所有数据类型,而非为每种模态配备独立 encoder。支持三种任务:text generation、multimodal understanding、image generation

2.LaViDa:一个基于 Discrete Flow Matching 构建的统一多模态模型

3.Muddit:使用 pure discrete diffusion 同时处理 text 与 image 的统一模型。图像通过预训练的 VQ-VAE 编码;文本通过 CLIP text encoder 处理。在训练与推理过程中,MM-DiT 会在这个联合 token 空间中对被 mask 的 token 进行预测

IV. Training Techniques

A. Challenges

1.Low Corpus Utilization:AR 的每一个答案序列中的 token 都能为学习提供信号,而 diffusion 训练在每个 time step 只对该步的 mask token 进行监督计算损失。不是所有 token 都在训练中被有效利用

2.Random Sampling of Time Index:训练中每个样本仅被监督一个生成步骤,在推理阶段,decoding 通常包含多个时间步的迭代。这种不一致会引入 coverage gap:尽管 decoding 需要跨多个步骤逐步优化,训练却仅为其中一个步骤提供梯度信号

3.Length Bias:生成序列长度是预先设定的,缺乏像 AR 中 [EOS] 这样的自然停止机制。因此,在仅使用扩散目标进行训练时,模型对目标输出长度较为敏感。所以当生成长度变化时,模型性能会出现显著波动,被称为 length bias,难以在不同输出长度之间泛化

B. Initialization Technique

针对 dLLMs 训练中的低效性和不稳定性问题,多项研究采用了先进的 initialization 策略,将完整的扩散训练过程转化为微调任务。

1.BERT Initialization:扩散生成过程可以被视为一种 multi-step masked language modeling 过程。Diffusionbert 即通过从预训练的 BERT 模型初始化扩散模型来进行建模

2.Autoregressive Model Initialization:Dream 7b 探索了从 AR LMs 直接迁移的方法,通过对齐两种范式的训练目标实现扩散模型的适配,借此扩散模型便可以使用 AR 的预训练权重进行初始化

3.Autoregressive-then-Diffusion Training:Dimple 提出了一个先 AR,后 diffusion 的方案,其训练流程分为两个阶段。Phase I:Autoregressive Training:Dimple 被当作一个标准 AR 来训练,采用 causal attention mask and next-token prediction loss;Phase II:Diffusion Fine-tuning:在完成 AR 训练后,模型进入 discrete diffusion 训练阶段,full attention 和 timestep-dependent masked language modeling losses。通过引入 AR 的先验能力,Dimple 在训练中表现出更强的指令对齐能力、更好的微调效果,并对输出长度变化更具鲁棒性。

C. Complementary Masking Technique

为确保所有的 token 都在训练中被 mask 并 optimize,LaViDa 使用 complementary masking 对不同的输入序列的 masked version 进行互补。

Complementary Masking 示意

D. Masking Scheduling Technique

Mask schedule 控制前向扩散过程中的扰动方式。具体来说,schedule 定义了每个时间步 t 的扰动强度
,决定了训练过程中 masked 的 token 比例。一个有效的 schedule 能够通过控制各时间步的signal-to-noise ratio,在学习稳定性与生成质量之间取得平衡。

1.Uniform Masking Scheduling。总共包括:、

  • Linear Schedule:mask 比例随时间 t 线性增长。在初始阶段保留更多 token,后期 mask 比例线性上升
  • Geometric Schedule:mask 比例随时间 t 指数增长(非常快),初期几乎不加噪,后期迅速mask 大多数 token
  • Cosine Schedule:mask 比例一开始变化缓慢,中间变化较快,最后趋于平稳,是一种平滑非线性曲线;被认为在视觉/语言扩散模型中最稳定、有效

Cosine Schedule 公式示意

2.Token-wise Masking Scheduling

Uniform masking scheduling 对所有 token 使用相同的调度策略,这忽略了不同 token 之间在信息量上的固有差异。例如,不同的 token 所携带的信息量是不同的,通常可以通过 entropy 来衡量;而 LLMs 在生成时表现出easy-first 的解码行为 —— 即常见的、低熵的 token 更容易被提前预测出来。diffusionbert 引入了一种基于 token 的 token-wise masking schedule,是比较早的技术了。

V. Inference Techniques

A. Unmasking Techniques

在 dLLMs 和 dMLLMs 中,模型在 iterative unmasking process 的过程中面临的两个核心挑战是 (i)每次迭代中应 mask 掉哪些 token(ii)每次迭代应 mask 掉多少 token

不同模型使用到的推理技术

1.Discrete-Time Unmasking

  • Random Unmasking:最简单的策略是随机选择当前 step 中的 ​s_t 个masked token 进行 unmask。 ​s_t 的取值可以在各步骤中固定,也可以通过 cosine scheduling 控制。推理阶段所采用的 mask 调度策略不一定要与训练阶段保持一致。在实践中被当作一个 tunable hyperparameter,根据不同任务进行变化
  • Metric-Based Unmasking:为每个 token 预测分配一个 metric,并依据该 metric 来选择要 mask 的 token。设 ​p \in \mathbb{R}^K 表示该 token 在 vocabulary 的预测概率分布,其中 K 是 vocabulary size。(1)Maximum Probability (Confidence):模型对 the most likely token 的置信程度(2)Margin:​ c = p_{top1} - p_{top2}, p_{top1}和 p_{top2}分别为最高和次高预测概率,衡量最优预测的主导程度(3)Negative Entropy: ​c = -\sum_{i=1}^{K} p_i \log(p_i + \epsilon) ,使用一个很小的常数 ϵ 来保持数值稳定性,反映预测分布的尖锐程度,越尖锐说明模型越有信心。
  • Selection Policies:在计算出每个 token 的 metric 后,扩散模型会依据不同的策略进行 unmask token 的选择。

(i)Top-​s_t Strategy:选择 highest confidence scores 的 ​s_t个 token 进行 unmask。s_t的值同样可以遵循 scheduling principles

(ii)Confident Decoding:由 Dimple 提出,基于 fixed confidence threshold,动态选择 unmask 的 token 数量。Motivation:decoding 应适应文本的语义结构,某些步骤中模型可能对很多 token 进行高置信预测,而其他步骤则需要更谨慎。因此,每一步应自适应地调整 decoded token 的数量

(iii) Local Unmasking:上述策略大多属于 global unmasking strategies,即所有 token 的 metric value 会聚合排序以决定选择顺序。然而,unmasking process 也可以是 local 的:所有 token 可以被划分为多个 subgroup,每个 subgroup 内独立进行排序和选择。一个典型示例是Semi-Autoregressive Decoding。该方法将完整的 response 划分为多个 block,类似于 block diffusion。在每次前向传播中,模型会对所有 block 同时进行预测,但 token 的 unmask 按照从左到右、逐 block 的顺序进行。只有当前 block 中所有 token 被 unmask 后,才允许下一个 block 中的 token unmask

上述所有方法遵循一个共通模式:(1)为每个 masked position 计算 confidence score;(2)根据某种规则(threshold, top-k, decaying ratio, block order)选择一个子集 unmask;(3)重复该过程,直到 no mask。这样的 metric-based schedules 优先 unmask “容易” 的 token,从而减少错误传播,并支持高度并行化的生成过程。

Unmasking strategies 示意图

2.Continuous-Time Unmasking (Flow Matching)

Flow Matching 这块的知识欠缺,没有细读。

B. Remasking Techniques

对于基于 absorbing states 的 discrete diffusion models,在推理过程中,一旦某个 token unmasked,它在后续步骤中将保持不变。这种静态行为限制了模型对先前预测结果进行修改或优化的能力。

为了解决这一问题,remasking 被引入:该技术会在之前 unmasked positions 重新引入 mask,从而使模型能够对生成的输出进行迭代式的优化。通过 remasking,decoding step 的总次数可以超过目标响应的长度,这就使得模型能够对响应内容进行多次更新与调整。这种机制被视为一种推理阶段 test-time scaling,通过逐步修正的方式提高最终生成结果的质量。

Remask 示意图

C. Prefilling and Caching Techniques

Prefilling 和 KV-Cache 是当前 AR 推理加速中广泛采用的标准技术。直观来说,Prefilling 和 KV-Cache 通过缓存前一解码步骤得到的 key 和 value 表征,避免重复计算,使模型能够在新的时间步复用这些表示。

在 AR 中,由于使用了 causal attention mask,缓存操作在理论上不会带来损失。这归因于注意力的单向性质,即每个 token 只能关注它之前的 token,因此之前计算得到的 key 和 value 表征在生成过程中始终保持有效且不变。同样地,在诸如 block-wise decoding 等半自回归生成范式中,也可以在不同 block 之间应用缓存,而不会引入近似误差

相比之下,dLLMs 和 dMLLMs 采用的是全注意力(双向)机制,其中每个 token 都可以关注序列中的所有其他位置,而不受掩码状态的限制。因此,即使是已经解码完成并被取消掩码的 token,其对应的 key 和 value 表征也可能受到后续扩散迭代中其他 token 更新的影响。尽管存在这样的理论局限性,实验研究仍然持续验证了在 dLLMs 和 dMLLMs 中引入 Prefilling 与 KV-Cache 技术的有效性。

  • Prefilling:多模态模型中,视觉输入的加入会显著增加 prompt token 的数量,往往即使不进行推理,其长度也超过生成回复的长度。对 prompt 进行 Prefilling 能够大幅提升推理效率。Dimple 与 LaViDa 是最早将 Prefilling 技术应用于 dMLLMs 的工作之一。Dimple 的实验结果表明,在大多数视觉语言基准上使用 Prefilling 所造成的性能下降可以忽略不计。引入 Prefilling 在推理效率上取得了显著提升,加速比范围为 2×–7×
  • KV cache:由于采用 full attention,dLLMs 和 dMLLMs 中缓存的 KV pairs、注意力输出以及其他值都不是静态不变的。相应的缓存策略通常包括三个组成部分:caching、reuse 和 update。dKV-Cache 与 dLLM-Cache 是最早将缓存技术引入 dLLMs 的工作之一

D. Guidance Techniques

在 dLLMs 和 dMLLMs 中,对预测的 logits 或 sampling probabilities 进行 post-processing 的过程通常被称为 guidance,借用了图像扩散模型中的说法。guidance 被用于在生成过程中施加影响,以引导结果朝着期望的特性发展,例如提升 diversity 或者 controllability。主要包括:(1)Classifier-Free Guidance(2)Classifier Guidance(3)Reward Guidance。技术细节就不详细说明了。

Guidance Technique

VI. Applications

主要有六个方向:Text Generation and Style Control、Text Editing and Summarization、Sentiment Analysis and Data Augmentation、Knowledge and Reasoning、Vision and Multimodal 和 Biological and Drug Discovery。

Discrete Diffusion 持续火热

VII. Future Directions

A. Training and Infrastructure

目前,dMLLMs 主要沿用了 AR 的架构设计。这类模型通常使用一个 autoregressive LLM(如 Transformer)作为 text encoder,并搭配一个独立的 vision encoder 来提取图像特征。然后通过一个轻量级的 projector or connector module(通常是一个简单的 MLP)将 vision tokens 和 textual representations 对齐。

尽管这种架构便于工程实现且能够复用已有的预训练组件,但本质上,它是出于工程便利性而非扩散建模需求所做出的迁移。事实上,diffusion 与 AR 在建模方式上有根本性的不同:前者通过迭代去噪步骤建模联合数据分布,而后者则是通过序列化的条件概率建模。随着模型规模的扩大,这种差异愈加显著。

此外,相较于 AR,dMLLMs 的基础设施仍相对薄弱。在 AR 领域,社区已经拥有成熟的开源模型、标准化的训练框架以及可复现的训练流程,这些都极大地促进了大规模的快速迭代与部署。因此,建立标准化、模块化且可扩展的训练框架,以及开源预训练模型,将是社区未来发展的关键方向。构建健全的基础设施不仅有助于公平比较与加速创新,还将推动其在实际应用中的落地部署。

B. Inference Efficiency

尽管 dLLMs 近期在各类任务上取得了一定成果,但在推理效率与系统可扩展性方面仍面临显著挑战。未来的研究可以从多个关键方向着手,以提升其实用性与性能:

  • 架构层面:引入更高效的注意力机制(如 FlashAttention 以及多尺度 token 表示,可有效降低推理阶段的计算负担
  • 去噪过程方面:发展更快的采样技术(如 progressive distillation 与 adaptive timestep scheduling),有望在不牺牲生成质量的前提下加快生成速度
  • 模型空间方面:将扩散过程迁移到 latent space,正如潜空间扩散模型所展示的那样,是实现建模能力与推理效率平衡的有前景方法
  • 系统部署方面:结合量化推理(如 INT8 或 INT4),可实现高吞吐、低延迟的生成流程
  • 多模态场景中:探索更深层次的视觉-语言耦合机制,例如在扩散过程中引入跨模态交互模块或设计模态感知的去噪网络,有望增强模型跨模态推理的能力

总而言之,从模型架构优化、采样加速、表示压缩到部署层级优化的整体融合,构成了推进 dLLMs 向高效、实用的真实世界应用发展的潜在路线图。