杏彩体育直播:太强了!DeepSeek刚刚开源新模型用视觉方式压缩一切

来源:杏彩体育直播
杏彩体育直播在线观看:

  没想到吧,DeepSeek 刚刚开源了新模型,还是一款 OCR 模型。能够正常的看到,该模型的参数量为 3B,刚上线 多次下载量了。

  DeepSeek 表示,DeepSeek-OCR 模型是通过光学二维映射技术压缩长文本上下文可行性的初步探索。

  该模型主要由 DeepEncoder 和 DeepSeek3B-MoE-A570M 解码器两大核心组件构成。其中 DeepEncoder 作为核心引擎,既能保持高分辨率输入下的低激活状态,又能实现高压缩比,从而生成数量适中的视觉 token。

  实验多个方面数据显示,当文本 token 数量在视觉 token 的 10 倍以内(即压缩率 10×)时,模型的解码(OCR)精度可达 97%;即使在压缩率达到 20× 的情况下,OCR 准确率仍保持在约 60%。

  这一结果为出该方法在长上下文压缩和 LLM 的记忆遗忘机制等研究方向上具有相当潜力。

  DeepSeek-OCR 在端到端模型测试中以最少的视觉 token 数达到了最先进的性能。

  DeepSeek 探索的方法概括起来就是:利用视觉模态作为文本信息的高效压缩媒介。

  什么意思呢?我们大家都知道,一张包含文档文本的图像可以用比等效文本少得多的 Token 来表示丰富的信息,这表明:通过视觉 Token 进行光学压缩能轻松实现高得多的压缩率。

  基于这一洞见,DeepSeek 从以 LLM 为中心的视角重新审视了视觉语言模型 (VLM),其中,他们的研究重点是:视觉编码器如何提升 LLM 处理文本信息的效率,而非人类已擅长的基本视觉问答 (VQA) 任务。

  DeepSeek 表示,OCR 任务作为连接视觉和语言的中间模态,为这种视觉 - 文本压缩范式提供了理想的试验平台,因为它在视觉和文本表示之间建立了自然的压缩 - 解压缩映射,同时提供了可量化的评估指标。

  DeepSeek-OCR 便由此而生。这是一个为实现高效视觉 - 文本压缩而设计的 VLM。

  如下图所示,DeepSeek-OCR 采用了一个统一的端到端 VLM 架构,由一个编码器和一个解码器组成。

  其中,编码器 (即 DeepEncoder) 负责提取图像特征,并将视觉表示进行 Token 化和压缩。解码器则用于根据图像 Token 和提示词 (prompt) 生成所需的结果。

  DeepSeek 研究之后发现,为了探索上下文光学压缩的可行性,我们应该一个具备以下特点的视觉编码器:

  然而,现有的开源编码器无法完全满足所有这些条件。因此,DeepSeek 自行设计了一款新颖的视觉编码器,命名为 DeepEncoder。

  DeepEncoder 主要由两个组件构成:一个以窗口注意力为主的视觉感知特征提取组件,以及一个采用密集全局注意力的视觉知识特征提取组件。

  基于之前相关研究的预训练成果,该团队分别使用 SAM-base (patch 大小为 16) 和 CLIP-large 作为这两个组件的主要架构。

  由于编码器的前半部分主要由窗口注意力构成,且参数量仅为 80M,因此其激活值是可接受的。在进入全局注意力之前,这 4096 个 Token 会经过压缩模块,数量变为 4096/16 = 256,从而使得整体的激活内存变得可控。

  在推理过程中,模型会激活 64 个路由专家中的 6 个以及 2 个共享专家,激活参数量约为 5.7 亿 (570M)。3B 的 DeepSeekMoE 很适合以领域为中心 (这里即为 OCR) 的 VLM 研究,因为它在获得 3B 模型表达能力的同时,也享有了 5 亿 (500M) 参数量小模型的推理效率。

  解码器从 DeepEncoder 压缩后的潜在视觉 Token 中重建原始文本表示,过程如下:

  其中 Z 是来自 DeepEncoder 的压缩后潜在 (视觉) Token,而 是重建的文本表示。函数 f_dec 代表一个非线性映射,紧凑的语言模型能够最终靠 OCR 风格的训练来有效地学习它。DeepSeek 推测认为:大语言模型通过专门的预训练优化,将能更自然地集成这类能力。

  OCR 1.0 数据,主要包含传统 OCR 任务,如场景图像 OCR 和文档 OCR;

  OCR 2.0 数据,最重要的包含复杂人造图像的解析任务,如常见图表、化学分子式和平面几何解析数据;

  通用视觉数据,大多数都用在为 DeepSeek-OCR 注入一定的通用图像理解能力,并保留通用的视觉接口。

  数据方面,DeepSeek 还进行了更多有利于 OCR 任务的设计,详情请参阅原论文。

  在此阶段,DeepSeek 使用了前文提到的所有 OCR 1.0 和 2.0 数据,以及从 LAION 数据集中采样的 1 亿条通用数据。所有数据均使用 AdamW 优化器和余弦退火调度器进行训练,共训练 2 个 epoch,批处理大小为 1280,学习率为 5e-5。训练序列长度为 4096。

  在 DeepEncoder 准备就绪后,再训练 DeepSeek-OCR。整个训练过程在 HAI-LLM 平台上进行。整个模型采用了流水线并行 (PP),并被分为 4 个部分,其中 DeepEncoder 占用两部分,解码器占用两部分。

  他们使用 20 个节点 (每个节点配备 8 个 A100-40G GPU) 进行训练,数据并行 (DP) 度为 40,全局批处理大小为 640。优化器为 AdamW,配合基于步数 (step-based) 的调度器,初始学习率为 3e-5。对于纯文本数据,训练速度为每天 900 亿 Token;对于多模态数据,训练速度为每天 700 亿 Token。

  研究选用了 Fox 基准数据集来验证 DeepSeek-OCR 在文本密集型文档上的压缩与解压能力。

  如表 2 所示,在 10× 压缩比的情况下,模型的解码精度可达约 97%。

  DeepSeek-OCR 不仅是一个实验性模型,还具备很强的实用能力。结果如表 3 所示。

  这些根据结果得出,DeepSeek-OCR 在实际应用中表现出极强的性能与效率,并且由于其更高的 token 压缩率,具有更高的研究潜力与扩展空间。

  图 7、图 8、图 9、图 10 所示,模型能够对图表、几何图形、化学公式,甚至自然图像进行深度解析,只需使用一个统一的提示词(prompt)即可完成。

  通用视觉理解:此外,DeepSeek-OCR 还具备某些特定的程度的通用图像理解能力,相关的可视化结果如图 12 所示。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  女子被通知面试,到场以“无经验”被刷,走后越想越气跑回去据理力争:“为啥不看简历?车费不要钱吗”

  2026款奔驰S级亮相,V8引擎4.4秒破百,15.1英寸OLED屏拉满科技感

  AMD 承认 Zen 5 处理器存在 RDSEED 缺陷,将通过微码更新修复

  绵中32人、东辰27人、绵外4人......2025年全国高中数学联赛四川获奖情况出炉!

,杏彩客户端手机版
上一篇:网盘最新资讯-快科技--科技改动未来
下一篇:盘点十款独立暗黑刷宝游戏 独立暗黑刷宝游戏排行榜

总部地址:湖南省长沙经济技术开发区东十路南段9号
邮编:410131