四大开源 OCR 终极对决:MinerU 2.5 · DeepSeek-OCR 2 · HunyuanOCR · PaddleOCR-VL-1.5

2025 年末到 2026 年初,开源 OCR 领域迎来了史上最密集的技术爆发。不到三个月内,四款重量级模型接连登场——上海 AI Lab 的 MinerU 2.5、DeepSeek 的 DeepSeek-OCR 2、腾讯的 HunyuanOCR、百度的 PaddleOCR-VL-1.5。它们参数量均在 1B 左右,却在 OmniDocBench 上打出了 90%~95% 的惊人精度,甚至全面超越了数百亿参数的通用大模型。本文将从架构设计、核心创新、训练策略、性能数据、应用场景五个维度进行深度横向对比,帮你找到最适合自己需求的那一款。

一、时间线与背景:一场百日战争

时间事件
2025.09.26上海 AI Lab 发布 MinerU 2.5,1.2B 参数,首创"粗到细"解耦架构
2025.11.25腾讯混元发布 HunyuanOCR,1B 参数,纯端到端 VLM,OmniDocBench 94.10
2026.01.27DeepSeek 发布 DeepSeek-OCR 2,引入因果流视觉编码,OmniDocBench 91.09
2026.01.29百度飞桨发布 PaddleOCR-VL-1.5,0.9B 参数,OmniDocBench 94.5 登顶

短短四个月,OmniDocBench 的 SOTA 被刷新了四次。这不是巧合——OCR 正处于从传统流水线向多模态视觉语言模型迁移的关键拐点,各大团队都在这个窗口期抢占技术制高点。


二、架构:四条截然不同的道路

四款模型虽然都瞄准了同一个目标——高精度文档解析,但在架构设计上走出了四条风格迥异的路线。理解这些差异,是选型的第一步。

2.1 MinerU 2.5:解耦式"先粗后精"

核心理念:将全局布局分析与局部内容识别彻底解耦

阶段一:全局布局分析(粗) ├── 输入:下采样缩略图(1036×1036) ├── 任务:检测文本块、表格、公式、图片等元素 + 阅读顺序 └── 输出:所有元素的边界框和类别 阶段二:局部内容识别(细) ├── 输入:从原始高分辨率图像裁剪的各元素区域 ├── 任务:对每个裁剪区域进行精细识别 └── 输出:文本(Markdown) / 表格(OTSL→HTML) / 公式(LaTeX) 

MinerU 2.5 的精妙之处在于:第一阶段在缩略图上工作,计算量极低;第二阶段只处理裁剪出的关键区域,避免了对整页高分辨率图像做全局注意力。这种空间维度上的分治策略将计算复杂度从 O ( N 2 ) \mathcal{O}(N^2) O(N2) 降低了一个数量级。

模型组件:

组件实现参数量
视觉编码器SigLIP(图像特征提取)~400M
语言解码器基于 Qwen2 架构微调~800M
总计1.2B

独特优势: 双后端架构设计——同时提供传统 Pipeline 后端(基于多模型级联)和 VLM 后端(基于视觉语言模型),用户可根据场景灵活切换。

2.2 DeepSeek-OCR 2:因果流视觉编码

核心理念:用 LLM 替代 CLIP 编码器,在编码阶段就完成语义重排

视觉分词器(SAM-base, 80M)→ 视觉 Token ↓ LLM 视觉编码器(Qwen2-0.5B) ├── 视觉 Token 间:双向注意力(保持全局感知) └── 查询 Token 间:因果注意力(模仿人类阅读逻辑) ↓ 有序的视觉特征序列 → LLM 解码器 → 文本输出 

DeepSeek-OCR 2 的核心创新是 DeepEncoder V2——引入可学习的"因果流查询 Token",通过因果注意力掩码实现两级级联因果推理:编码器负责"理顺"信息(语义重排),解码器负责"翻译"信息(文本生成)。

技术亮点:

  • 视觉 Token 数量严格控制在 256~1120 个,是业界最低
  • 首次验证"LLM 可以有效充当视觉编码器"这一假设
  • 阅读顺序编辑距离从 0.085 降至 0.057(↓33%)

2.3 HunyuanOCR:原生多模态端到端

核心理念:单一模型、单次推理,摒弃一切流水线设计

Hunyuan-ViT(SigLIP-v2-400M)→ 视觉特征 ↓ Adaptive MLP Connector → 压缩视觉 Token ↓ Hunyuan-0.5B(XD-RoPE)→ 结构化文本输出 

HunyuanOCR 最大的与众不同是 XD-RoPE(Cross-Dimensional Rotary Position Embedding),将位置编码解构为四个独立子空间:

维度用途
文本维度Token 在序列中的位置
高度维度文字在页面上的垂直位置
宽度维度文字在页面上的水平位置
时间维度视频帧的时间戳

这让一个 0.5B 的语言模型天然具备了对文档空间结构的深度理解——多栏排版、表格、浮动图片的相对位置关系,都被编码到位置嵌入中,而不需要模型"自己去学"。

训练亮点: 2 亿高质量图文对 + GRPO 强化学习 + ICDAR 2025 文档端到端翻译赛道冠军。

2.4 PaddleOCR-VL-1.5:两阶段版面驱动

核心理念:让版面分析引擎和视觉语言模型各司其职

阶段一:PP-DocLayoutV3(版面分析) ├── RT-DETR + 掩码检测头 → 多边形异形框定位 ├── Global Pointer → 阅读顺序预测 └── 输出:17 类元素的精确位置 + 类型 + 阅读顺序 阶段二:PaddleOCR-VL-0.9B(内容识别) ├── NaViT 动态分辨率编码器 ├── Adaptive MLP Connector ├── ERNIE-4.5-0.3B 语言模型 └── 输出:6 大任务的结构化内容 

PaddleOCR-VL-1.5 的标志性创新是多边形异形框定位——用像素级实例分割掩码替代传统矩形框,解决了倾斜、弯折、透视变形场景下的定位失配问题。这

Read more

VLA机器人革命:解析当下10篇最关键的视觉-语言-动作模型论文

VLA机器人革命:解析当下10篇最关键的视觉-语言-动作模型论文

VLA机器人革命:解析当下10篇最关键的视觉-语言-动作模型论文 概览 2024-2026年,机器人领域正经历一场范式转换:从传统的任务特定编程转向视觉-语言-动作(Vision-Language-Action, VLA)模型。这些模型将视觉感知、自然语言理解和动作执行统一在单一框架中,让机器人能够像人类一样理解指令、推理场景并执行复杂操作。 本文精选5篇最fundamental的基础性论文和5篇热度最高的前沿论文,深入剖析VLA领域的核心思想、技术演进和未来方向。这些论文代表了从Google DeepMind、NVIDIA、斯坦福、Physical Intelligence等顶尖机构的最新突破,涵盖了从单臂操作到双臂人形机器人、从模拟环境到真实家庭场景的全方位进展。 Part I: 五篇Fundamental基础性论文 这些论文奠定了VLA领域的理论基础和技术范式,是理解整个领域发展脉络的关键。 1. RT-2: New Model Translates Vision and Language into Action 发表机构:Google DeepMind 时间:

【Part 3 Unity VR眼镜端播放器开发与优化】第四节|高分辨率VR全景视频播放性能优化

【Part 3 Unity VR眼镜端播放器开发与优化】第四节|高分辨率VR全景视频播放性能优化

文章目录 * 《VR 360°全景视频开发》专栏 * Part 3|Unity VR眼镜端播放器开发与优化 * 第一节|基于Unity的360°全景视频播放实现方案 * 第二节|VR眼镜端的开发适配与交互设计 * 第三节|Unity VR手势交互开发与深度优化 * 第四节|高分辨率VR全景视频播放性能优化 * 一、挑战分析与目标设定 * 1.1 主要瓶颈 * 1.2 目标设定 * 二、硬解与软解方案选型 * 2.1 平台解码能力检测 * 2.2 推荐策略 * 三、视野裁剪与分块播放 * 3.1 原理说明 * 3.2 实现流程图 * 3.3 伪代码 * 四、动态降级与多码率自适应 * 4.1

零代码上手!用 Rokid 灵珠平台,5 步搭建专属旅游 AR 智能体

零代码上手!用 Rokid 灵珠平台,5 步搭建专属旅游 AR 智能体

零代码上手!用 Rokid 灵珠平台,5 步搭建专属旅游 AR 智能体 灵珠平台简介 okid 自研 AI 开发平台,基于多模态大模型与轻量化架构,打造零门槛、全栈化 AI 开发体系。平台提供可视化编排、预置能力组件,支持原型到云端、端侧一站式敏捷部署,并深度适配 Rokid Glasses 智能眼镜,通过专属硬件接口与低功耗优化,实现 AI 应用高效端侧落地,助力开发者快速打造视觉识别、语音交互等穿戴式 AI 应用,拓展 AI + 物理世界的交互边界可视化编排工具,拖拽式快速搭建应用预置丰富能力组件库,涵盖对话引擎、视觉识别等核心模块支持从原型设计到云端、端侧的一站式敏捷部署提供设备专属适配接口,实现硬件深度协同搭载低功耗运行优化方案,保障端侧持久稳定运行 实战:搭建旅游类AR智能体 1、进入灵珠平台 登录灵珠平台后,你将看到简洁直观的工作台界面 点击创建智能体按钮,