长文本建模在智能体、文档问答等任务中具有重要意义,但传统方法在扩展上下文窗口时往往面临计算与内存开销巨大的挑战。
近期,视觉文本压缩(光学文本压缩)的概念因 DeepSeek-OCR 的提出而备受关注,其证明了文本信息可通过图像形式实现近乎无损的压缩与恢复。



在这一背景下,我们的同期工作 Glyph 从可扩展性出发,进一步探索了视觉语言模型在长文本建模中的潜力。Glyph 在保持语义完整的前提下,实现了 3–4 倍压缩,并显著提升了推理与训练效率。

论文:Glyph: Scaling Context Windows via Visual-Text Compression
链接:https://arxiv.org/abs/2510.17800
代码:https://github.com/thu-coai/Glyph
11月6日(周四)晚9点,青稞Talk 第86期,清华大学博士生程家乐,将直播分享《从 DeepSeek-OCR 到 Glyph:深入理解图像-文本压缩技术》,系统阐述图像-文本压缩技术这一新兴方向的核心理念、方法实现与实验成果,并探讨该方向的发展前景。
分享嘉宾
程家乐是清华大学计算机科学与技术系博士研究生,对话式人工智能课题组成员,师从黄民烈教授。研究聚焦大语言模型与多模态大模型的后训练对齐,在 ICLR、ACL、EMNLP、ICCV 等国际顶级会议发表多篇论文,谷歌学术引用量超过 2000 次。
主题提纲
从 DeepSeek-OCR 到 Glyph:深入理解图像-文本压缩技术
1、长文本建模方法的概述与挑战
2、DeepSeek-OCR 中的视觉文本压缩技术
3、Glyph 的核心框架与实现
4、探讨图像-文本压缩技术的发展前景
直播时间
11月6日(周四)21:00 - 22:00
同时,嘉宾已经入驻青稞社区·知识星球,想要提问交流的朋友可以加入星球!
![]()