NUS、ZJU、UW、Stanford、CUHK联合提出「ThinkMorph」，主张让文字与图像在统一架构里「原生协作」、「共同演化」，而不是像当下大多数多模态模型那样，看完图像就闭上眼睛，后续完全靠文字链条推进。

仅用2.4万条数据微调7B统一模型，视觉推理平均提升34.74%，多项任务比肩甚至超越GPT-4o和Gemini 2.5 Flash。更重要的是，模型涌现出未被训练覆盖的视觉操作能力与自主模式切换，显示出多模态推理走向「原生智能」或许正在跨过第一道门槛。

论文标题：ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
论文（arXiv）: https://arxiv.org/abs/2510.27492
代码：https://github.com/ThinkMorph/ThinkMorph
主页（全开源）：https://thinkmorph.github.io/

为什么需要「原生」多模态推理？

人类解决复杂问题时，「视觉思维」和「逻辑思维」是无缝切换的：看到一道几何题，我们会在脑中构建空间图景，同时用逻辑推演约束条件；走迷宫时，我们一边在视觉上追踪路径，一边在语言层面排除死胡同。两种思维模态彼此交织、互相推进，这是人类认知的基本方式。

图1：人类认知中视觉与语言思维的自然协同

然而，当前主流的多模态大模型并非如此。图像只在输入阶段被“看见”一次，之后无论是思维链还是强化学习，提升的都是语言层面的推理。换言之，模型「看了一眼」之后就闭上了眼睛，纯靠文字完成后续所有思考。

一种思路是调用外部视觉工具来间接弥补，但天花板有限。ThinkMorph 走的是更彻底的路：「原生多模态推理」（Unified Multimodal Reasoning）：模型可以在推理的任何阶段自主生成中间图像来辅助思考，再用文字分析图像、推进逻辑，形成交替演进的推理链。整个过程在同一个统一模型中完成，不依赖任何外部工具或多阶段流水线。

图2：工具增强 vs 原生多模态推理

这与人类的认知方式高度一致：我们解决视觉问题时，也是在「看」和「想」之间自然切换，而不是看一眼就闭上眼睛纯靠语言推演。ThinkMorph让模型第一次具备了这种能力。

核心设计：互补而非同构

ThinkMorph的核心理念：文字与图像在推理中应提供互补信息，共同演化，而非同构复制。

图3：文字与图像互补协作，逐步推进推理过程

文字负责抽象分析和逻辑验证（「这块碎片左侧有棕色纹理，应在第三行第一列」），图像负责空间可视化和细节呈现（生成重排后的拼图效果图、标注边界框、绘制路径），两者互相推动，逐步逼近答案。

图4：四类视觉推理任务的交错推理实现

基于统一多模态模型Bagel-7B，研究团队构建了约24K条高质量交错推理训练数据，覆盖四类视觉推理任务

图5：四类视觉推理训练任务

原生多模态推理有多强，又能走多远？

在同一个基座模型上，研究团队分别微调了纯文字、纯视觉和交错「三种推理模式」进行对比。结果很清晰：交错推理在视觉密集型任务上全面领先。文字与图像在推理中确实能互补协作，而非简单相加。

图6：三种推理模式的性能对比

更关键的是「泛化能力」。在全部24K数据联合训练后，ThinkMorph在9 个基准上相比基础模型平均提升20.74%，其中包括多个从未见过的域外任务。尽管只有7B参数，它已可以与大规模模型比肩：在BLINK-J上超越 Qwen2.5-VL-72B超过10个百分点，在SAT空间推理上领先GPT-4o 24.67个百分点，在MMVP上匹配Gemini 2.5 Flash。

这不只是规模的胜利，而是训练策略的胜利：交错推理让生成与理解相互强化，用更少的数据撬动了更强的视觉推理能力。

图7：ThinkMorph 在 9 个基准上的泛化表现

不止于性能：原生多模态推理的潜力远超想象

如果 ThinkMorph 只是「性能更好」，它可能只是又一篇刷榜论文。但比数字更重要的，是这个初步探索中涌现出的一系列积极信号。它们暗示：原生多模态推理的潜力，我们才刚刚触及冰山一角。

图8：三个涌现信号概览

信号一：未见视觉操作——模型自主习得了 8 种新技能

训练数据中只包含四类基础视觉操作（拼图可视化、路径绘制、边界框标注、区域高亮），但测试时模型自发展现了8种从未见过的操作如放大（zoom-in）、图像修复（inpainting）等。

图9：模型涌现的未见视觉操作示例

最典型的例子：面对「这个灯笼椒是红色还是黄色？」这个问题，模型自动生成了一张放大图来辨认颜色的细微差异，完全模仿了人类凑近观察的认知策略，而这种操作在训练数据中从未出现。在某些基准上，这类涌现操作占到了所有视觉生成的10% 以上。

研究团队分析了其来源机制：预训练赋予了原始的视觉操作能力，而交错推理微调激活了这些能力在推理场景中的目的性运用。

信号二：自主模式切换——「这道题不需要视觉辅助」

尽管只用交错推理数据训练，模型在**5.3%**的测试案例中 「自主切换」为纯文字推理。这不是随机行为：在切换的样本上准确率达到 81.25%，比坚持交错推理高出 7.29 个百分点。

模型学会了判断「这道题需不需要视觉辅助」，像人类一样灵活协调语言和视觉，而非机械执行固定流程。

图10：自主模式切换案例与统计

信号三：协同解空间探索——多样性驱动更好的测试时扩展

在Best-of-N采样下，交错推理一致优于单模态推理，且分布偏移越大优势越明显。在最具挑战的BLINK-J上，交错推理从65.33%提升到73.33%（+8.0%），而纯视觉推理反而下降2.0%。

原因在于：单模态推理链局限于单一表示空间，而交错推理同时在文字和图像空间中探索，天然产生更 「多样化」 的推理轨迹，覆盖更广的解空间。

图11：Best-of-N 测试时扩展对比

涌现属性的进一步验证

上述三个涌现信号是否只是个别任务上的偶然？在更广泛的域外基准上，研究团队进一步验证了它们的稳健性。

测试时扩展的表现因任务类型而异：在推理密集型任务（如 VStar）上，性能随采样数 N单调提升（+5.89%@N=8）；而在感知主导型任务（如 BLINK-J）上呈现 U 形曲线，需要更大的采样量才能逃离局部最优。

图12：不同任务类型的测试时扩展趋势

此外，当模型被允许在不同推理模式间灵活切换时，模式多样性本身进一步放大了测试时扩展的收益，为未来更高效的多模态扩展提供了方向。

图13：模式多样性对测试时扩展的增益

边界在哪里？

ThinkMorph 同时讨论了这种推理方式的边界条件。 在图表分析中，关键信息本身就是文字（标签、数值），纯文字推理反而略优（+1.88%）；但在需要精确视觉定位的任务上（如 MMVP），交错推理优势明显（+6.33%）。简单说：需要持续「看」的任务，交错推理最优；一眼就能提取关键信息的任务，文字推理更高效。

图14：交错推理的边界条件分析

总结：原生多模态推理的未来

ThinkMorph仍是「原生多模态推理」的一场初步探索，但它已经证明，文字与图像一旦在统一架构中共同演化，就会涌现出训练数据从未覆盖的新能力，并学会自主判断何时该看、何时该想。

如果说当下的推理增强是在语言空间里把推理拧到极致，而ThinkMorph暗示下一次范式级突破可能不在更长的文本链条里，而在视觉与语言「交错协作」的原生推理里。跨过第一道门槛之后，等待被释放的是一种构建智能的全新默认方式。让多模态成为默认的思考方式，而这才刚刚开始。

原生多模态推理的涌现时刻？ThinkMorph 仅用 24K 数据开启 Scaling 新赛道