简介
HunyuanOCR 是由腾讯开发的轻量级端到端 OCR 专家视觉语言模型 (VLM),基于 Hunyuan 的原生多模态架构。该模型仅包含 1B 参数,却在多个行业基准测试中达到了最先进的水平,适用于复杂多语言文档解析、文本定位、开放字段信息提取、视频字幕提取和照片翻译等任务。
部署环境
官方环境要求:
- 🖥️ 操作系统:Linux
- 🐍 Python 版本:3.12+(推荐)
- ⚡ CUDA 版本:12.9
- 🔥 PyTorch 版本:2.7.1
- 🎮 GPU:支持 CUDA 的 NVIDIA 显卡
- 🧠 GPU 显存:20GB (for vLLM)
- 💾 磁盘空间:6GB
实际环境:
| 环境 | 版本 |
|---|---|
| ubuntu-24.04.3 Server | release 10.0 |
| Cuda | 12.8 |
| 显卡 RTX 2080 Ti 22G | 驱动 NVIDIA-Linux-x86_64-580.105.08 |
| uv | 0.9.13 |
| 内存 | 32G |
下载
这里选择从 modelscope 进行下载。
pip install modelscope
modelscope download --model Tencent-Hunyuan/HunyuanOCR --cache_dir '/home/qy/models/'

uv 环境
# 安装 UV
curl -LsSf https://astral.sh/uv/install.sh | sh
# 查看 python 版本
uv python list
# 创建虚拟环境,并指定 python 版本
uv venv hunyuanocr --python 3.12
cd hunyuanocr
# 激活环境,激活后,括号中显示 hunyuanocr 表示已经切了环境
source hunyuanocr/bin/activate
# 配置 PyPI 仓库为国内源
vim ~/.config/uv/uv.toml
[registries.pypi]
index = "https://mirrors.aliyun.com/pypi/simple/"
default = true
下载推理源码
git clone https://github.com/Tencent-Hunyuan/HunyuanOCR.git
cd /home/qy/hunyuan/HunyuanOCR-main
uv pip install -r requirements.txt
安装 vLLM
uv pip install -U "aiohttp<4"
uv pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly









