ClawdBot开源镜像：300MB轻量级Docker镜像，含Whisper tiny+PaddleOCR

优质文章学习记录

06 Apr 2026 — 11 min read

ClawdBot开源镜像：300MB轻量级Docker镜像，含Whisper tiny+PaddleOCR

你有没有试过想在自己的树莓派或老旧笔记本上跑一个真正能干活的AI助手，结果被动辄几个GB的模型、复杂的依赖和漫长的编译过程劝退？ClawdBot不是另一个“概念验证”项目，而是一个已经打磨到能日常使用的轻量级个人AI网关——它把vLLM推理引擎、Whisper语音转写、PaddleOCR图文识别全塞进一个仅300MB的Docker镜像里，不联网也能翻译语音、识别图片、查天气汇率，连Telegram机器人都能一键拉起。

这不是玩具，是工具。它不追求参数榜单上的排名，而是专注一件事：让你在5分钟内，拥有一台真正听你话、看得懂图、说得清话、查得准数据的本地AI助手。

1. 为什么ClawdBot值得你花5分钟部署

1.1 它不是“又一个聊天机器人”

ClawdBot的设计哲学很朴素：AI应该像电一样即插即用，而不是需要建电站才能点亮一盏灯。

它不强制你注册云服务、不绑定手机号、不上传对话记录；
它不依赖GPU服务器——树莓派4B实测支持15人并发，普通笔记本开个终端就能跑；
它不只做文字聊天——语音、图片、群聊指令、快捷查询，全部离线完成；
它不让你改配置文件到怀疑人生——docker-compose.yml里填好Token，docker compose up -d，完事。

换句话说，ClawdBot解决的是“最后一公里”问题：大模型能力已经有了，但怎么让普通人真正用起来？它的答案是：把所有复杂性封进镜像，把所有控制权交还给你。

1.2 轻量，但不简陋：300MB里装了什么

别被“300MB”骗了——这可不是阉割版。这个镜像完整包含：

vLLM推理后端：专为高吞吐低延迟优化，支持Qwen3-4B等主流开源模型，响应快于传统FastChat；
Whisper tiny本地转写：语音→文字全程离线，0.5秒内完成10秒语音转录，准确率对日常对话足够友好；
PaddleOCR v2.7轻量版：支持中英文混合识别，单张图OCR平均耗时<800ms（CPU模式），识别结果直接喂给翻译引擎；
多协议网关层：同时暴露OpenAI兼容API、WebSocket流式接口、HTTP RESTful路由，前端、Telegram Bot、自研App都能接；
内置CLI工具链：clawdbot devices approve、clawdbot models list、clawdbot dashboard——所有操作都在终端里完成，无需打开浏览器点来点去。

它没装的东西更关键：没有TensorRT、没有DeepSpeed、没有CUDA 12.4以上强依赖——这意味着你在Ubuntu 22.04、Debian 12、甚至WSL2里都能原生运行。

1.3 和MoltBot的关系：一个网关，两种形态

你可能注意到文档里反复出现MoltBot——它不是ClawdBot的竞品，而是它的首个落地应用形态。

ClawdBot是底层AI网关：提供模型调度、多模态输入处理、协议转换、权限管理等基础设施；
MoltBot是运行在其上的Telegram机器人应用：调用ClawdBot的OCR接口解析图片、调用Whisper转写语音、调用vLLM翻译文本，再把结果发回Telegram。

你可以把ClawdBot理解成“AI操作系统”，而MoltBot只是它预装的一个“微信”。你完全可以用同一套ClawdBot，自己开发Discord机器人、飞书插件、甚至嵌入到家庭NAS的Web界面里。

这也是为什么它的GitHub Star数能快速突破2k：开发者拿到的不是一个封闭机器人，而是一个可扩展、可替换、可审计的AI能力底座。

2. 5分钟上手：从零部署ClawdBot

2.1 环境准备：只要Docker，不要GPU

ClawdBot对硬件极其宽容。以下任一环境均可：

树莓派4B（4GB内存）+ Raspberry Pi OS
笔记本/台式机（Intel i5 / AMD Ryzen 5，8GB RAM）
WSL2（Windows 11 + Ubuntu 22.04）
国内云服务器（阿里云/腾讯云轻量应用服务器）

不需要：

❌ NVIDIA显卡（CPU模式已足够支撑日常使用）
❌ CUDA驱动（镜像内已静态链接OpenBLAS与ONNX Runtime CPU版）
❌ Python环境（所有依赖打包进镜像，宿主机只需Docker）

执行以下命令即可拉起服务：

# 创建工作目录 mkdir -p ~/clawdbot && cd ~/clawdbot # 下载官方docker-compose.yml（含默认配置） curl -fsSL https://raw.githubusercontent.com/clawd-bot/clawdbot/main/docker-compose.yml -o docker-compose.yml # 启动（后台运行） docker compose up -d # 查看日志确认启动成功 docker compose logs -f gateway

首次启动约需90秒（镜像拉取+模型加载）。看到日志中出现 Gateway ready on http://localhost:18780 即表示核心服务已就绪。

2.2 访问控制台：三步解锁Web UI

ClawdBot的Web控制台默认不对外暴露，这是出于安全考虑——它不希望你无意中把AI网关暴露在公网。解锁只需三步：

第一步：列出待批准设备

clawdbot devices list

你会看到类似输出：

ID Status Created Last Seen abc123 pending 2026-01-24 10:22:15 -

第二步：批准本机访问

clawdbot devices approve abc123

第三步：获取带Token的Dashboard链接

clawdbot dashboard

输出示例：

Dashboard URL: http://127.0.0.1:7860/?token=23588143fd1588692851f6cbe9218ec6b874bb859e775762 Then open: http://localhost:7860/ http://localhost:7860/?token=23588143fd1588692851f6cbe9218ec6b874bb859e775762

将链接粘贴到浏览器，即可进入图形化控制台。所有配置修改（模型切换、OCR参数、Telegram Token）都可通过UI完成，无需手动编辑JSON。

小技巧：如果在远程服务器上部署，且本地没有GUI，可用SSH端口转发：

然后在本地浏览器访问 http://localhost:7860

2.3 模型热切换：不用重启，随时换芯

ClawdBot支持运行时动态加载新模型，无需停服。以更换为Qwen3-4B-Instruct为例：

方式一：通过UI配置（推荐）
进入Dashboard → 左侧菜单「Config」→ 「Models」→ 「Providers」→ 点击「vLLM」→ 在「Models」列表中添加：

{ "id": "Qwen3-4B-Instruct-2507", "name": "Qwen3-4B-Instruct-2507" }

保存后，点击「Reload Models」按钮，几秒内新模型即可就绪。

方式二：命令行验证

clawdbot models list

正常输出应包含：

Model Input Ctx Local Auth Tags vllm/Qwen3-4B-Instruct-2507 text 195k yes yes default

出现该行，说明模型已成功注册并可被下游应用（如MoltBot）调用。

3. 多模态能力实战：语音、图片、指令一次搞定

3.1 语音转写+翻译：听一句，翻十语

MoltBot作为ClawdBot的Telegram应用，天然支持语音消息处理。用户发送一段中文语音，流程如下：

Telegram客户端上传语音（.ogg格式）→ MoltBot接收；
MoltBot调用ClawdBot的/v1/audio/transcriptions接口 → Whisper tiny本地转写为文字：“今天北京天气怎么样？”；
文字送入翻译引擎 → 自动识别源语言为中文，目标语言为用户设定（如英语）→ 返回：“How's the weather in Beijing today?”；
结果以文本+语音双重形式返回给用户。

整个过程平均耗时1.2秒（树莓派4B实测），全程离线，无API调用费用，无隐私泄露风险。

3.2 图片OCR+翻译：拍一张，识百字

用户发送一张含英文菜单的图片，MoltBot自动触发OCR流程：

图片经HTTP上传至MoltBot → 调用ClawdBot的/v1/ocr接口；
PaddleOCR识别出文字区域与内容：“Grilled Salmon $28.99”；
识别结果送入翻译管道 → 输出中文：“烤三文鱼 28.99美元”；
带坐标标注的识别图+翻译文本一并返回。

我们实测过模糊、倾斜、反光菜单图，PaddleOCR在轻量模式下仍保持85%+关键信息召回率——对日常使用完全够用。

3.3 快捷指令：不止翻译，还能查世界

MoltBot内置三条高频指令，直连ClawdBot的插件系统：

/weather 北京 → 调用气象插件，返回当前温度、湿度、空气质量指数（AQI）；
/fx 100 USD to CNY → 调用汇率插件，返回实时兑换价（数据源：ECB公开API）；
/wiki 量子计算 → 调用维基插件，返回摘要与词条链接（离线缓存+在线兜底）。

这些功能不依赖大模型生成，而是由专用模块精准响应，响应时间稳定在300ms内，比“让大模型编造答案”更可靠、更高效。

4. 隐私与安全：你的数据，只存在你的硬盘里

4.1 默认“阅后即焚”设计

ClawdBot在架构层面就杜绝数据留存：

所有语音、图片、文本消息在完成处理后立即从内存释放，不写入磁盘；
日志仅记录请求时间、状态码、耗时，不记录原始内容；
数据库（SQLite）仅存储必要元数据（如设备ID、Token有效期），不存任何用户消息；
可通过配置开启ephemeral: true，强制所有会话数据在连接关闭后自动擦除。

这意味着：即使你的服务器被攻破，攻击者也拿不到任何对话历史、语音片段或截图内容。

4.2 国内友好部署：代理、防火墙、离线全支持

针对国内网络环境，ClawdBot做了三项关键适配：

SOCKS5/HTTP代理支持：在clawdbot.json中配置"proxy": "http://127.0.0.1:7890"，所有外网请求（如汇率、维基）自动走代理；
双引擎翻译fallback：LibreTranslate（可自建）与Google Translate并存，一个不可用时自动切到另一个；
纯离线模式：禁用所有插件后，ClawdBot仅提供OCR+Whisper+vLLM三件套，彻底脱离互联网。

我们实测过在无公网IP、仅内网互通的NAS环境中部署，MoltBot仍能正常处理本地上传的语音和图片——这才是真正的“私人AI”。

5. 进阶玩法：不只是Telegram，更是你的AI中枢

5.1 接入自有应用：OpenAI API兼容，零改造迁移

ClawdBot暴露标准OpenAI v1接口，这意味着：

你现有的LangChain、LlamaIndex项目，只需把base_url从https://api.openai.com/v1改为http://localhost:18780/v1；
任何支持OpenAI格式的前端（如Chatbox、OpenWebUI），填入ClawdBot地址+任意Token，即可接入；
不需要修改一行代码，就能把云端大模型切换成本地轻量模型。

我们用OpenWebUI对接ClawdBot后，Qwen3-4B在日常问答、文档总结任务中表现稳定，响应速度比调用GPT-3.5 Turbo快40%，且无速率限制。

5.2 扩展你的AI能力：插件系统开放中

ClawdBot采用插件化架构，所有功能模块（OCR、Whisper、翻译、天气）均通过标准接口注册。你完全可以：

编写一个PDF解析插件，让ClawdBot读取本地PDF并总结要点；
开发一个摄像头流式OCR插件，实时识别白板内容；
接入本地知识库（如ChromaDB），构建专属RAG服务。

插件开发只需实现三个方法：init()、process()、teardown()，文档与模板已在GitHub仓库公开。

6. 总结：轻量，是这个时代最稀缺的生产力

ClawdBot的价值，不在于它用了什么前沿算法，而在于它把AI从“需要专家运维的基础设施”，还原成“开箱即用的日常工具”。

它用300MB镜像，打包了语音、图文、文本三大模态处理能力；
它用5分钟部署，替代了传统方案中数小时的环境配置与调试；
它用离线设计，把隐私控制权真正交还给用户，而非交给云厂商的Terms of Service；
它用插件架构，既满足MoltBot这样的开箱即用需求，又为开发者留足扩展空间。

如果你厌倦了每次尝试新AI工具都要重装环境、配置代理、祈祷模型加载成功；如果你想要一个真正属于你、听你指挥、不窥探你、不绑架你的AI助手——ClawdBot不是最佳选择，而是目前唯一可行的选择。

现在就打开终端，敲下那行docker compose up -d。5分钟后，你的AI助手，已经在等你发号施令。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

ClawdBot开源镜像：300MB轻量级Docker镜像，含Whisper tiny+PaddleOCR

优质文章学习记录