本地部署 PaddleOCR-VL 实现免费 OCR 识别
介绍如何在本地部署 PaddleOCR-VL 模型进行文字识别。该模型支持印刷体、手写体及数学公式的精准识别,且数据在本地处理保障隐私。教程涵盖整合包安装启动、基础功能演示(文本、公式识别)以及通过内网穿透工具实现公网访问和安全授权验证的配置方法。适合需要高效、安全 OCR 解决方案的用户参考。

介绍如何在本地部署 PaddleOCR-VL 模型进行文字识别。该模型支持印刷体、手写体及数学公式的精准识别,且数据在本地处理保障隐私。教程涵盖整合包安装启动、基础功能演示(文本、公式识别)以及通过内网穿透工具实现公网访问和安全授权验证的配置方法。适合需要高效、安全 OCR 解决方案的用户参考。

本地部署 OCR 工具可避免在线服务的次数限制和隐私泄露风险,同时节省付费成本。PaddleOCR-VL 是一款视觉 - 语言多模态文档解析模型,相比传统 OCR,它能理解文档结构和语义,支持多语言识别。
PaddleOCR‑VL 是 PaddleOCR 3.x 系列中的一款 视觉‑语言多模态文档解析模型,专门面向复杂文档场景设计。相比传统 OCR 仅能识别文字,PaddleOCR‑VL 通过融合视觉编码器与语言模型,实现了从'文字识别'到'图文理解'的跨模态能力。它不仅可以精准识别文字,还能理解文字在文档中的结构和语义,例如表格、公式、图表以及多栏排版内容。
该模型参数规模适中(约 0.9 亿),兼顾高精度和资源效率,因此既适合本地部署,也可在私有云或远程环境中使用。更重要的是,PaddleOCR‑VL 支持多语言文本识别(超过 100 种语言),在处理多语种混排文档时表现出色。凭借其跨模态能力,它不仅可以完成大批量文档解析,还能为知识抽取、智能问答等后续任务提供结构化输入,成为现代智能文档处理系统的核心技术。
简而言之,PaddleOCR‑VL 是一款专业的多模态文档理解模型,突破了传统 OCR 的局限,实现了文字识别、版式理解与语义分析的有机结合。
由于官方开源代码方式部署环境较为复杂不适宜新手入门,本教程演示使用整合包方式,让流程更加简单。
将整合包下载下来后,进行解压,进入解压后的目录内,双击执行运行脚本:
执行脚本后,会打开终端窗口,检测电脑配置情况,以及下载模型。
启动完成后,会出现 URL 地址,且会自动在浏览器中打开,如果没有打开,手动访问如下地址即可:
http://127.0.0.1:7891
出现如上页面,PaddleOCR‑VL 整合包就启动完成啦!
PaddleOCR‑VL 可以用来识别各种类型的文字,本部分将演示 印刷体、手写体和数学公式,其他类型就不一一全部演示了,通过这几个示例让你快速了解模型的核心功能和基本使用方法。
首先,准备一张要识别的图片。在页面上点击上传区域,或者直接把图片拖入上传区域进行上传。
文件上传后,点击下方的开始生成按钮。
点击开始后,可以按快捷键 Ctrl + Shift + Esc 键打开任务管理器,然后查看 GPU 的负载。
可以看到,当前显卡占用达到了较高比例,如果占用降下去了,说明 OCR 已经识别完成了,可以回到页面查看。
页面提示完整下载请去 outputs 文件夹,下载 md 文件和对应的 imgs 文件夹,我们可以打开项目目录,进入outputs目录下。
进入后可以看到一个文件夹,里面的子目录可以看到生成的文件和图片。
可以通过原图和 OCR 识别后的图片进行对比查看。
基本上没有发现什么识别错误,完美的识别出了印刷体图片上的英文内容!
前面演示了印刷体识别,可能有的小伙伴会说,这个太正常了。那我们接下来识别一下手写体的图片。
让我们看看PaddleOCR‑VL是否能够识别出来吧!由于上传和生成步骤一致,这里就不做逐步演示了,直接展示结果吧。
可以看到,完美的把内容识别出来了,而且竟然没有任何错误!
前面演示了印刷体和手写体识别,可以看到,效果非常好,接下来我们来试试数学公式,看看能否识别出来。
直接来看看效果对比一下吧。
可以发现,除了原图中的回车符号,显示成了句号以外,以及开口方向的表格列和原图不符合,其他的文字以及数学公式完成正确!准确率极高!
在前面,我们已经成功启动了 PaddleOCR-VL 项目,也可以正常通过 http://127.0.0.1:7891/ 这样的地址进行访问,并实现图片识别功能。但是细心的你可能已经发现了——这个地址只能在本地设备访问,一旦换到其他电脑、手机,或者想让朋友远程体验时,就完全打不开了。这其实是因为本地服务默认只在你的计算机内部运行,没有对外网络入口。
接下来,我们就来解决这个问题:通过 内网穿透工具,让 PaddleOCR-VL 也能像在线网站一样被外部访问。
打开内网穿透工具的下载页面,点击下载按钮,下载对应系统的安装包。
下来下来是一个压缩包,解压后执行目录中的应用程序,一路默认安装即可,安装完成后,打开终端窗口输入如下命令确认安装:
cpolar version
出现如上版本即代表安装成功!
访问官网,点击免费注册按钮,进行账号注册。
进入到如下的注册页面进行账号注册。
注册完成后,在浏览器中输入如下地址访问 Web UI 管理界面:
http://127.0.0.1:9200
输入刚才注册好的账号登录即可进入后台页面。
随机域名方式适合预算有限的用户。使用此方式时,系统会每隔 24 小时 左右自动更换一次域名地址。对于长期访问的不太友好,但是该方案是免费的,如果您有一定的预算,可以查看固定域名方式,且访问更稳定。
点击左侧菜单栏的隧道管理,展开进入隧道列表页面,页面下默认会有 2 个隧道:
点击编辑 website 的隧道,修改成我们 PaddleOCR-VL 需要的信息:
注意:每个用户创建的隧道显示的公网地址都不一样!
接着,点击左侧菜单的状态菜单,接着点击在线隧道列表菜单按钮,可以看到有 2 个PaddleOCR-VL-7891的隧道,一个为 http 协议,另一个为 https 协议。
接下来在浏览器中访问 PaddleOCR-VL-7891 隧道生成的公网地址(http 和 https 皆可),这里以 https 为例。
可以看到成功访问啦!
通过前面的配置,我们已经成功实现了 PaddleOCR-VL 的远程访问,但免费随机域名方案的局限性也逐渐显现:每24 小时左右自动更换域名地址,意味着你需要频繁更新书签、重新分享链接,甚至可能因为忘记更新而无法访问。固定域名方案正是为了解决这些痛点而生,让你拥有一个永久不变的专属地址,真正实现稳定可靠的 OCR 在线工作台。
好啦,接下来开始固定保留二级子域名教程!
首先,进入官网的预留页面:
https://dashboard.cpolar.com/reserved
选择预留菜单,即可看到保留二级子域名项,填写其中的地区、名称、描述(可不填)项,然后点击保留按钮。
列表中显示了一条已保留的二级子域名记录:
China Top。pdocr。注:二级域名是唯一的,每个账号都不相同,请以自己设置的二级域名保留的为主
接着,进入侧边菜单栏的隧道管理下的隧道列表,可以看到名为PaddleOCR-VL-7891的隧道,点击编辑按钮进入编辑页面。
修改域名类型为二级子域名,然后填写前面配置好的子域名,点击更新按钮。
来到状态菜单下的在线隧道列表可以看到隧道名称为PaddleOCR-VL-7891的公网地址已经变更为二级子域名 + 固定域名主体及后缀的形式了。
这里以 https 协议做访问测试(加载稍慢,需耐心等待一下)。
访问成功!这样一来,你就拥有了一个永久不变的专属域名,再也不用担心 24 小时域名更换的问题。
在完成公网部署后,你会发现 PaddleOCR-VL 默认是无需登录即可访问的。虽然这便于快速使用,但在家庭共享网络或团队协作场景下,可能会带来安全隐患。 例如:他人可通过公网地址随意提交图片识别任务,甚至查看配置信息,存在滥用资源的风险。 为了保障系统安全,我们可以借助 内网穿透工具内置的访问授权验证功能,为公网隧道添加密码保护,确保只有知道凭证的用户才能访问你的 PaddleOCR-VL 实例。
首先,打开管理界面,进入隧道管理 → 隧道列表,找到PaddleOCR-VL-7891隧道,点击编辑按钮。
在编辑页面中,点击高级按钮展开高级配置选项,按照下图进行设置:
在 HttpAuth 这一栏,输入 admin:123456 其中【admin】为你想要设置的账号,中间的冒号是英文的(不是中文),【123456】为想要给 admin 用户设置的密码。
重新访问你的公网地址,会发现浏览器弹出登录验证框。
输入刚才设置的用户名和密码,即可正常访问 PaddleOCR-VL 的 Web 界面。通过这一道简单的访问验证,你的平台就具备了基础的安全防护,在享受远程访问便利的同时,有效保障了本地内容、AI 配置与 API 资源的安全。
总的来说,这份教程从 PaddleOCR-VL 的基础认知入手,一步步教大家用整合包快速启动工具,演示了印刷体、手写体、数学公式等核心识别场景,还通过内网穿透实现了公网访问,甚至补充了访问授权验证的安全设置,全程操作简单,新手也能轻松上手。
希望这篇分享能帮到和我一样有 OCR 需求的朋友,不用再为文字识别花钱、操心,用最简单的方式搭建起自己的专属工具。如果操作过程中有任何问题,欢迎留言交流,祝大家都能把这个实用工具用起来,提升日常工作和学习的效率~

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online