本地部署 PaddleOCR-VL 实现免费 OCR 识别

前言

本地部署 OCR 工具可避免在线服务的次数限制和隐私泄露风险，同时节省付费成本。PaddleOCR-VL 是一款视觉 - 语言多模态文档解析模型，相比传统 OCR，它能理解文档结构和语义，支持多语言识别。

1 什么是 PaddleOCR-VL？

PaddleOCR‑VL 是 PaddleOCR 3.x 系列中的一款 视觉‑语言多模态文档解析模型，专门面向复杂文档场景设计。相比传统 OCR 仅能识别文字，PaddleOCR‑VL 通过融合视觉编码器与语言模型，实现了从'文字识别'到'图文理解'的跨模态能力。它不仅可以精准识别文字，还能理解文字在文档中的结构和语义，例如表格、公式、图表以及多栏排版内容。

该模型参数规模适中（约 0.9 亿），兼顾高精度和资源效率，因此既适合本地部署，也可在私有云或远程环境中使用。更重要的是，PaddleOCR‑VL 支持多语言文本识别（超过 100 种语言），在处理多语种混排文档时表现出色。凭借其跨模态能力，它不仅可以完成大批量文档解析，还能为知识抽取、智能问答等后续任务提供结构化输入，成为现代智能文档处理系统的核心技术。

简而言之，PaddleOCR‑VL 是一款专业的多模态文档理解模型，突破了传统 OCR 的局限，实现了文字识别、版式理解与语义分析的有机结合。

2 环境搭建及启动

由于官方开源代码方式部署环境较为复杂不适宜新手入门，本教程演示使用整合包方式，让流程更加简单。

将整合包下载下来后，进行解压，进入解压后的目录内，双击执行运行脚本：

执行脚本后，会打开终端窗口，检测电脑配置情况，以及下载模型。

启动完成后，会出现 URL 地址，且会自动在浏览器中打开，如果没有打开，手动访问如下地址即可：

http://127.0.0.1:7891

出现如上页面，PaddleOCR‑VL 整合包就启动完成啦！

3 简单使用 PaddleOCR‑VL

PaddleOCR‑VL 可以用来识别各种类型的文字，本部分将演示 印刷体、手写体和数学公式，其他类型就不一一全部演示了，通过这几个示例让你快速了解模型的核心功能和基本使用方法。

3.1 印刷体 OCR 识别

首先，准备一张要识别的图片。在页面上点击上传区域，或者直接把图片拖入上传区域进行上传。

文件上传后，点击下方的开始生成按钮。

点击开始后，可以按快捷键 Ctrl + Shift + Esc 键打开任务管理器，然后查看 GPU 的负载。

可以看到，当前显卡占用达到了较高比例，如果占用降下去了，说明 OCR 已经识别完成了，可以回到页面查看。

页面提示完整下载请去 outputs 文件夹，下载 md 文件和对应的 imgs 文件夹，我们可以打开项目目录，进入outputs目录下。

进入后可以看到一个文件夹，里面的子目录可以看到生成的文件和图片。

可以通过原图和 OCR 识别后的图片进行对比查看。

基本上没有发现什么识别错误，完美的识别出了印刷体图片上的英文内容！

3.2 手写体 OCR 识别

前面演示了印刷体识别，可能有的小伙伴会说，这个太正常了。那我们接下来识别一下手写体的图片。

让我们看看PaddleOCR‑VL是否能够识别出来吧！由于上传和生成步骤一致，这里就不做逐步演示了，直接展示结果吧。

可以看到，完美的把内容识别出来了，而且竟然没有任何错误！

3.3 数学公式 OCR 识别

前面演示了印刷体和手写体识别，可以看到，效果非常好，接下来我们来试试数学公式，看看能否识别出来。

直接来看看效果对比一下吧。

可以发现，除了原图中的回车符号，显示成了句号以外，以及开口方向的表格列和原图不符合，其他的文字以及数学公式完成正确！准确率极高！

4 公网访问配置

在前面，我们已经成功启动了 PaddleOCR-VL 项目，也可以正常通过 http://127.0.0.1:7891/ 这样的地址进行访问，并实现图片识别功能。但是细心的你可能已经发现了——这个地址只能在本地设备访问，一旦换到其他电脑、手机，或者想让朋友远程体验时，就完全打不开了。这其实是因为本地服务默认只在你的计算机内部运行，没有对外网络入口。

接下来，我们就来解决这个问题：通过 内网穿透工具，让 PaddleOCR-VL 也能像在线网站一样被外部访问。

4.1 什么是内网穿透？

内网穿透是一种网络工具，可以将你在局域网内运行的服务（如本地 Web 服务器、SSH、远程桌面等）通过一条安全加密的中间隧道映射至公网，让外部设备无需配置路由器即可访问。
广泛支持 Windows、macOS、Linux 等平台，并提供一键安装脚本方便部署。

4.2 下载及安装内网穿透工具

打开内网穿透工具的下载页面，点击下载按钮，下载对应系统的安装包。

下来下来是一个压缩包，解压后执行目录中的应用程序，一路默认安装即可，安装完成后，打开终端窗口输入如下命令确认安装：

cpolar version

出现如上版本即代表安装成功！

4.3 注册及登录管理界面

4.3.1 注册账号

访问官网，点击免费注册按钮，进行账号注册。

进入到如下的注册页面进行账号注册。

4.3.2 访问 Web UI 管理界面

注册完成后，在浏览器中输入如下地址访问 Web UI 管理界面：

http://127.0.0.1:9200

输入刚才注册好的账号登录即可进入后台页面。

5 穿透 PaddleOCR-VL 项目以支持公网访问

5.1 随机域名方式 (免费方案)

随机域名方式适合预算有限的用户。使用此方式时，系统会每隔 24 小时 左右自动更换一次域名地址。对于长期访问的不太友好，但是该方案是免费的，如果您有一定的预算，可以查看固定域名方式，且访问更稳定。

点击左侧菜单栏的隧道管理，展开进入隧道列表页面，页面下默认会有 2 个隧道：

remoteDesktop 隧道，指向 3389 端口，tcp 协议
website 隧道，指向 8080 端口，http 协议（http 协议默认会生成 2 个公网地址，一个是 http，另一个 https，免去配置 ssl 证书的繁琐步骤）

点击编辑 website 的隧道，修改成我们 PaddleOCR-VL 需要的信息：

注意：每个用户创建的隧道显示的公网地址都不一样！

接着，点击左侧菜单的状态菜单，接着点击在线隧道列表菜单按钮，可以看到有 2 个PaddleOCR-VL-7891的隧道，一个为 http 协议，另一个为 https 协议。

接下来在浏览器中访问 PaddleOCR-VL-7891 隧道生成的公网地址（http 和 https 皆可），这里以 https 为例。

可以看到成功访问啦!

5.2 固定域名方式（升级任意套餐皆可）

通过前面的配置，我们已经成功实现了 PaddleOCR-VL 的远程访问，但免费随机域名方案的局限性也逐渐显现：每24 小时左右自动更换域名地址，意味着你需要频繁更新书签、重新分享链接，甚至可能因为忘记更新而无法访问。固定域名方案正是为了解决这些痛点而生，让你拥有一个永久不变的专属地址，真正实现稳定可靠的 OCR 在线工作台。

好啦，接下来开始固定保留二级子域名教程！

首先，进入官网的预留页面：

https://dashboard.cpolar.com/reserved

选择预留菜单，即可看到保留二级子域名项，填写其中的地区、名称、描述（可不填）项，然后点击保留按钮。

列表中显示了一条已保留的二级子域名记录：

地区：显示为China Top。
二级域名：显示为pdocr。

注：二级域名是唯一的，每个账号都不相同，请以自己设置的二级域名保留的为主

接着，进入侧边菜单栏的隧道管理下的隧道列表，可以看到名为PaddleOCR-VL-7891的隧道，点击编辑按钮进入编辑页面。

修改域名类型为二级子域名，然后填写前面配置好的子域名，点击更新按钮。

来到状态菜单下的在线隧道列表可以看到隧道名称为PaddleOCR-VL-7891的公网地址已经变更为二级子域名 + 固定域名主体及后缀的形式了。

这里以 https 协议做访问测试（加载稍慢，需耐心等待一下）。

访问成功！这样一来，你就拥有了一个永久不变的专属域名，再也不用担心 24 小时域名更换的问题。

6 为 PaddleOCR-VL 添加访问授权验证

在完成公网部署后，你会发现 PaddleOCR-VL 默认是无需登录即可访问的。虽然这便于快速使用，但在家庭共享网络或团队协作场景下，可能会带来安全隐患。例如：他人可通过公网地址随意提交图片识别任务，甚至查看配置信息，存在滥用资源的风险。为了保障系统安全，我们可以借助 内网穿透工具内置的访问授权验证功能，为公网隧道添加密码保护，确保只有知道凭证的用户才能访问你的 PaddleOCR-VL 实例。

6.1 配置访问授权验证

首先，打开管理界面，进入隧道管理 → 隧道列表，找到PaddleOCR-VL-7891隧道，点击编辑按钮。

在编辑页面中，点击高级按钮展开高级配置选项，按照下图进行设置：

在 HttpAuth 这一栏，输入 admin:123456 其中【admin】为你想要设置的账号，中间的冒号是英文的（不是中文），【123456】为想要给 admin 用户设置的密码。

6.2 验证授权效果

重新访问你的公网地址，会发现浏览器弹出登录验证框。

输入刚才设置的用户名和密码，即可正常访问 PaddleOCR-VL 的 Web 界面。通过这一道简单的访问验证，你的平台就具备了基础的安全防护，在享受远程访问便利的同时，有效保障了本地内容、AI 配置与 API 资源的安全。

总结

总的来说，这份教程从 PaddleOCR-VL 的基础认知入手，一步步教大家用整合包快速启动工具，演示了印刷体、手写体、数学公式等核心识别场景，还通过内网穿透实现了公网访问，甚至补充了访问授权验证的安全设置，全程操作简单，新手也能轻松上手。

希望这篇分享能帮到和我一样有 OCR 需求的朋友，不用再为文字识别花钱、操心，用最简单的方式搭建起自己的专属工具。如果操作过程中有任何问题，欢迎留言交流，祝大家都能把这个实用工具用起来，提升日常工作和学习的效率～

本地部署 PaddleOCR-VL 实现免费 OCR 识别

前言

1 什么是 PaddleOCR-VL？

2 环境搭建及启动

3 简单使用 PaddleOCR‑VL

3.1 印刷体 OCR 识别

3.2 手写体 OCR 识别

3.3 数学公式 OCR 识别

4 公网访问配置

4.1 什么是内网穿透？

4.2 下载及安装内网穿透工具

4.3 注册及登录管理界面

4.3.1 注册账号

4.3.2 访问 Web UI 管理界面

5 穿透 PaddleOCR-VL 项目以支持公网访问

5.1 随机域名方式 (免费方案)

5.2 固定域名方式（升级任意套餐皆可）

6 为 PaddleOCR-VL 添加访问授权验证

6.1 配置访问授权验证

6.2 验证授权效果

总结

更多推荐文章

相关免费在线工具

本地部署 PaddleOCR-VL 实现免费 OCR 识别

前言

1 什么是 PaddleOCR-VL？

2 环境搭建及启动

3 简单使用 PaddleOCR‑VL

3.1 印刷体 OCR 识别

3.2 手写体 OCR 识别

3.3 数学公式 OCR 识别

4 公网访问配置

4.1 什么是内网穿透？

4.2 下载及安装内网穿透工具

4.3 注册及登录管理界面

4.3.1 注册账号

4.3.2 访问 Web UI 管理界面

5 穿透 PaddleOCR-VL 项目以支持公网访问

5.1 随机域名方式 (免费方案)

5.2 固定域名方式（升级任意套餐皆可）

6 为 PaddleOCR-VL 添加访问授权验证

6.1 配置访问授权验证

6.2 验证授权效果

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具