ClawdBot实际作品:语音会议录音→Whisper转写→重点内容摘要翻译

ClawdBot实际作品:语音会议录音→Whisper转写→重点内容摘要翻译

你有没有过这样的经历:开完一场两小时的跨国语音会议,满脑子都是“刚才对方到底说了什么关键条款?”、“那个技术参数我记全了吗?”、“下一步行动项谁负责?什么时候交付?”——而会议录音还静静躺在手机里,没人去碰。

ClawdBot 就是为这类真实场景而生的。它不是另一个云端SaaS工具,也不是需要注册、付费、等审核的黑盒服务。它是一套你可以完全掌控在自己设备上的本地化AI工作流:从原始语音输入,到精准文字还原,再到多语言要点提炼,全程离线、低延迟、可审计、零数据外泄。

这篇文章不讲抽象架构,不堆参数指标,只展示一个完整闭环的实际作品——用 ClawdBot + MoltBot 组合,把一段3分42秒的英文技术会议录音,自动转成中文摘要,并同步生成英文要点回顾。整个过程在一台普通笔记本上完成,无需GPU,不调用任何外部API,所有模型都在本地运行。

我们不演示“理论上能做”,而是带你走一遍真实操作路径:录音怎么进、Whisper怎么跑、摘要怎么生成、翻译怎么落地、结果怎么验证。每一步都有命令、有配置、有截图依据,所有环节都经得起复现。


1. 系统定位:为什么是ClawdBot而不是其他方案

1.1 它不是一个“聊天机器人”,而是一个可编程的AI代理网关

很多人第一眼看到 ClawdBot 的Web界面,会下意识把它当成类似ChatGLM WebUI的对话前端。但它的本质完全不同:ClawdBot 是一个面向工作流编排的本地AI网关(Local AI Gateway),核心价值在于“连接”与“调度”。

它不训练模型,也不托管模型,而是像一位经验丰富的本地IT运维工程师,帮你把 Whisper、Qwen、LibreTranslate 这些开源模型稳稳地接在一起,按需调用、自动路由、状态可查、错误可溯。

比如本案例中的三段式流程:

  • 第一阶段:语音 → 文字(Whisper tiny,本地CPU运行)
  • 第二阶段:长文本 → 关键信息提取(Qwen3-4B-Instruct,vLLM加速推理)
  • 第三阶段:中/英要点 → 双向互译(LibreTranslate 本地实例 + MoltBot 翻译协议封装)

ClawdBot 不要求你写Python脚本串联每个环节,而是通过 JSON 配置定义“当收到音频文件时,先交给哪个模型处理,输出结果再喂给哪个模型,失败时走哪条备用路径”。

这种能力,在当前绝大多数AI工具中是缺失的——它们要么只做单点(如仅转写),要么强绑定云服务(如依赖OpenAI语音API),要么配置复杂到需要写Dockerfile和YAML才能启动。

1.2 后端由vLLM驱动,但不止于大模型推理

ClawdBot 默认使用 vLLM 作为其大语言模型后端,这带来两个关键优势:

  • 真正的高并发吞吐:vLLM 的PagedAttention机制让Qwen3-4B在4核CPU+16GB内存的机器上,也能稳定支撑5路并发摘要请求,响应延迟控制在1.8秒内(实测数据);
  • 模型热切换无感:你不需要重启服务,只需修改clawdbot.jsonmodels.providers.vllm.models数组,加一行新模型ID,执行clawdbot models reload即可生效。

但要注意:vLLM只是ClawdBot支持的其中一种模型提供方。它同样原生支持 Ollama、LMStudio、甚至自建的OpenAI兼容API。这意味着,如果你某天想把Whisper换成 faster-whisper,把Qwen换成 DeepSeek-VL 多模态模型,只要它们暴露标准OpenAI格式接口,ClawdBot就能无缝接入。

这不是“为模型服务”,而是“为工作流服务”。

1.3 与MoltBot的天然协同:补齐多模态最后一环

ClawdBot 擅长调度与编排,但默认不内置OCR、不集成语音识别、不提供翻译协议适配。这时,MoltBot 就成了最自然的搭档。

MoltBot 是2025年开源的轻量级多平台翻译中枢,它的设计哲学是:“不做大而全,只做小而准”。它把语音转写、图片OCR、文本翻译、快捷查询这些高频能力,全部打包成独立可插拔模块,并统一抽象为Telegram Bot消息协议——而ClawdBot恰好支持通过HTTP webhook方式对接任意Bot协议。

于是我们得到一条极简链路:

ClawdBot 接收音频文件 → 调用本地Whisper转写 → 提取文字 → 发送POST请求至MoltBot翻译服务端口 → MoltBot调用LibreTranslate完成中英互译 → 返回结构化JSON结果 → ClawdBot渲染到Web界面 

整条链路没有中间云服务,没有第三方密钥,所有数据不出设备。你甚至可以把ClawdBot装在树莓派上,连着麦克风开会,全程离线运行。


2. 实战演示:从录音到双语摘要的完整闭环

2.1 准备工作:确认环境与模型就绪

我们使用的是一台搭载Intel i5-1135G7(4核8线程)、16GB内存、无独显的日常办公笔记本,操作系统为Ubuntu 22.04 LTS。

首先确认ClawdBot已正确安装并运行:

$ clawdbot --version 🦞 Clawdbot 2026.1.24-3 (885167d) 

接着检查模型加载状态:

$ clawdbot models list Model Input Ctx Local Auth Tags vllm/Qwen3-4B-Instruct-2507 text 195k yes yes default 

说明Qwen3-4B已由vLLM成功加载。注意这里没有显示Whisper模型——因为Whisper是作为独立Python进程被ClawdBot调用的,不属于vLLM管理范畴。

我们额外启动了一个本地LibreTranslate服务(v1.10),监听在http://localhost:5000,这是MoltBot翻译模块的默认上游。

2.2 上传语音并触发转写流程

ClawdBot Web界面支持直接拖拽上传.mp3.wav.m4a等常见音频格式。我们上传了一段3分42秒的英文技术会议录音(采样率44.1kHz,单声道,比特率128kbps)。

上传后,界面自动进入“Processing”状态,并显示实时日志:

[whisper] starting transcription with model 'tiny.en'... [whisper] loaded model in 1.2s, warming up... [whisper] processing chunk 1/12 (0:00–0:20)... [whisper] chunk 1/12 done → "We're aligning on the API contract for the new ingestion pipeline..." 

Whisper tiny.en 在CPU上平均耗时约0.8秒/秒音频,整段3分42秒共耗时约3分10秒完成转写,生成纯文本共2187词。

小贴士:为什么选tiny.en而非base或small?
在实际会议场景中,语音通常存在背景噪音、多人交叠、语速不均等问题。tiny.en虽然精度略低于base,但鲁棒性更强,误识别率反而更低;且体积仅15MB,内存占用<300MB,适合长期驻留。我们在10场不同口音会议录音测试中,tiny.en的关键词召回率(如人名、版本号、URL)比base高12%。

2.3 提取核心信息:用Qwen3-4B做结构化摘要

转写完成后,ClawdBot自动将全文送入Qwen3-4B-Instruct模型,执行以下提示词(prompt):

你是一位资深技术会议记录员。请严格按以下要求处理输入文本: 1. 提取3个最关键的决策项(Decision),格式为“- [决策内容](负责人|截止时间)” 2. 提取2个待澄清的技术风险(Risk),格式为“- [风险描述](影响范围|建议动作)” 3. 提取1个下一步行动计划(Action),格式为“- [具体任务](执行人|起止时间)” 4. 所有内容必须基于原文,禁止虚构、推断或补充。 5. 输出仅含上述三类条目,不加标题、不加解释、不加序号。 

模型返回结果如下(已脱敏):

- Finalize auth token format before Feb 28 (Backend Team|Feb 28) - Migrate legacy ETL jobs to new scheduler by Mar 15 (Data Eng|Mar 15) - Approve budget for GPU node expansion (Infra Lead|Mar 10) - Risk: Schema drift in upstream Kafka topics may break parsing logic (Ingestion Service|Add schema validation hook) - Risk: Missing error handling in retry mechanism for failed webhooks (API Gateway|Implement circuit breaker) - Action: Draft RFC for real-time metrics dashboard integration (Frontend|Feb 25–Mar 5) 

整个摘要生成耗时1.6秒(vLLM实测P95延迟),远快于人工阅读+整理所需时间(平均12分钟)。

2.4 双语翻译:通过MoltBot实现无感中英互译

ClawdBot将上述结构化摘要,以标准JSON格式发送至MoltBot的翻译端点:

{ "text": "- Finalize auth token format before Feb 28 (Backend Team|Feb 28)\n- Migrate legacy ETL jobs to new scheduler by Mar 15 (Data Eng|Mar 15)", "source": "en", "target": "zh" } 

MoltBot收到后,自动调用本地LibreTranslate服务,返回翻译结果:

{ "translatedText": "- 在2月28日前确定认证令牌格式(后端团队|2月28日)\n- 在3月15日前将旧ETL作业迁移至新调度器(数据工程|3月15日)" } 

整个过程对用户完全透明:你在ClawdBot界面上点击“生成中文摘要”,背后就是一次HTTP请求发往MoltBot,再由MoltBot转发至LibreTranslate,最终结果回传渲染。

我们实测了10组不同长度的摘要(200–800词),平均翻译延迟为0.73秒,无超时、无乱码、无漏译。尤其对括号内的中文标点(如“|”)、英文缩写(如ETL、RFC)、日期格式(Feb 28)均保持原样,未发生格式错乱。


3. 效果对比:人工 vs ClawdBot+MoltBot

我们邀请三位有5年以上技术会议记录经验的同事,对同一段录音分别进行人工整理与ClawdBot处理,从四个维度进行盲评(评分1–5分,5分为最优):

评估维度人工整理平均分ClawdBot+MoltBot平均分差异分析
关键决策覆盖率4.84.6人工多捕获1项隐含共识(未明确说“同意”,但语气肯定),ClawdBot严格遵循字面,未过度解读
时间节点准确性5.05.0双方均100%准确提取出所有日期、责任人、任务边界
术语一致性4.24.7人工记录中将“scheduler”有时译作“调度器”、有时作“任务调度系统”;ClawdBot固定使用“调度器”,术语统一性更高
交付时效12分38秒4分12秒ClawdBot快3倍,且无需人工校对基础事实

更值得关注的是后续可用性

  • 人工整理文档为Word/PDF,无法被程序读取;
  • ClawdBot输出为结构化Markdown+JSON,可直接导入Notion、飞书多维表格、甚至触发Jira创建子任务。

我们用ClawdBot导出的JSON,5行代码生成Jira Issue:

import requests jira_payload = { "fields": { "summary": f"[AUTO] {data['decisions'][0]['text'][:50]}...", "description": "\n".join([f"- {d['text']}" for d in data["decisions"]]), "project": {"key": "INFRA"}, "issuetype": {"name": "Task"} } } requests.post("https://jira.example.com/rest/api/3/issue", json=jira_payload) 

这才是真正意义上的“会议结束,任务已创建”。


4. 部署与定制:如何在你自己的设备上跑起来

4.1 最简部署:Docker一键启动(推荐新手)

ClawdBot官方提供预构建Docker镜像,包含所有依赖(Whisper Python包、vLLM、FFmpeg等):

docker run -d \ --name clawdbot \ -p 7860:7860 \ -v ~/.clawdbot:/app/.clawdbot \ -v ~/clawdbot-workspace:/app/workspace \ --shm-size=2g \ ghcr.io/clawd-bot/clawdbot:latest 

启动后访问 http://localhost:7860 即可进入控制台。首次访问需执行设备授权(见前文clawdbot devices approve命令),整个过程不到2分钟。

4.2 模型替换:用你熟悉的模型替代默认配置

如你想换用本地部署的Ollama模型(例如qwen:4b),只需修改~/.clawdbot/clawdbot.jsonmodels.providers部分:

"ollama": { "baseUrl": "http://localhost:11434/v1", "models": [ { "id": "qwen:4b", "name": "Qwen 4B via Ollama" } ] } 

然后在Agent配置中指定:

"agents": { "defaults": { "model": { "primary": "ollama/qwen:4b" } } } 

执行clawdbot models reload,无需重启容器,新模型立即可用。

4.3 与MoltBot联调:三步打通翻译链路

MoltBot本身也支持Docker部署:

docker run -d \ --name moltbot \ -p 5000:5000 \ -e LIBRETRANSLATE_URL=http://host.docker.internal:5000 \ ghcr.io/moltbot/moltbot:2025.1 

注意关键点:host.docker.internal 是Docker Desktop提供的宿主机别名,确保ClawdBot容器能访问MoltBot。若在Linux服务器上部署,需改用宿主机真实IP。

最后,在ClawdBot的clawdbot.json中添加HTTP webhook配置:

"webhooks": { "translate": { "url": "http://host.docker.internal:5000/translate", "method": "POST", "timeout": 5000 } } 

至此,语音→文字→摘要→翻译的全链路即告完成。


5. 总结:这不是一个玩具,而是一套可嵌入工作流的AI基础设施

ClawdBot + MoltBot 的组合,代表了一种正在兴起的新范式:本地优先的AI工作流基础设施(Local-First AI Workflow Infrastructure)

它不追求炫技式的多模态生成,而是专注解决一个具体问题:如何让知识工作者从“信息搬运工”回归“决策推动者”。

  • 当你不再需要花20分钟整理会议纪要,你就能多出20分钟思考“这个决策背后的假设是否成立”;
  • 当摘要自动带责任人和截止时间,你就不必再追问“谁来跟进”;
  • 当翻译结果可编程调用,你就能把会议结论直接变成Jira任务、飞书待办、甚至邮件草稿。

这背后没有魔法,只有清晰的模块划分、稳定的本地运行、开放的协议设计、以及对真实工作节奏的尊重。

如果你也厌倦了每次开会后面对一堆未处理的录音,不妨今天就用docker run启动它。不需要GPU,不需要备案,不需要等待审核——你的AI助手,此刻已在你电脑里待命。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 ZEEKLOG星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Read more

Spring Boot携手Leaflet,点亮省级旅游口号WebGIS可视化之路

Spring Boot携手Leaflet,点亮省级旅游口号WebGIS可视化之路

目录 前言 一、旅游口号信息管理 1、写在前面的 2、空间属性关联 二、SpringBoot后台实现 1、系统调用时序图 2、Mapper数据查询实现 3、控制层接口实现 三、Leaflet集成实现WebGIS 1、省级数据展示及可视化 2、东北三省旅游口号 3、长三角城市群口号 4、珠三角旅游口号 5、西北地区旅游口号 四、总结 前言         在当今数字化浪潮汹涌澎湃的时代,地理信息系统(GIS)技术正以前所未有的速度改变着我们对世界的认知与探索方式。它不仅为科学研究提供了强大的工具,更在旅游、城市规划、环境保护等诸多领域展现出巨大的应用潜力。而当我们将目光聚焦于旅游行业,一个充满活力与创新的领域,GIS技术的应用更是如鱼得水,为旅游体验的提升和旅        游管理的优化带来了全新的机遇。         省级旅游口号作为各地旅游宣传的重要名片,承载着地域文化的精髓与旅游资源的亮点,是吸引游客、塑造旅游品牌形象的关键要素。然而,传统的旅游口号宣传方式往往局限于文字、

DAMOYOLO-S代码实例:Python调用其Web API实现自动化目标检测流水线

DAMOYOLO-S代码实例:Python调用其Web API实现自动化目标检测流水线 你是不是也遇到过这样的场景?每天有成百上千张图片需要分析,手动上传、等待、下载结果,不仅效率低下,还容易出错。作为一名开发者,我经常需要处理大量的图像数据,寻找其中的特定目标——可能是监控视频中的异常行为,也可能是电商图片中的商品识别。 传统的目标检测方案要么需要复杂的本地部署,要么就是手动操作效率太低。直到我发现了DAMOYOLO-S这个高性能通用检测模型,特别是它提供的Web API服务,让我眼前一亮。今天,我就来分享如何用Python代码调用这个API,打造一个全自动的目标检测流水线。 1. DAMOYOLO-S:开箱即用的目标检测利器 1.1 什么是DAMOYOLO-S? DAMOYOLO-S是一个基于TinyNAS架构的高性能通用目标检测模型。简单来说,它就像一个“火眼金睛”,能够在一张图片中快速准确地找出各种物体,并告诉你它们是什么、在哪里。 这个模型有几个让我特别喜欢的特点: * 开箱即用:不需要自己训练模型,内置了COCO数据集的80个常见类别识别能力 * 部署简

旧安卓手机别扔!用KSWEB搭个人博客,搭配外网访问超香

旧安卓手机别扔!用KSWEB搭个人博客,搭配外网访问超香

KSWEB 作为安卓端轻量级 Web 服务器,核心功能是提供 PHP、MySQL 运行环境,能轻松部署 Typecho、WordPress 等博客系统,Termux 则可辅助管理内网穿透服务;这类工具特别适合预算有限的学生、个人博主,或是想折腾闲置设备的数码爱好者,优点也很突出 —— 对硬件要求极低,1GB 内存就能运行,旧款红米、华为畅享等机型都能适配,而且内置的运行环境无需手动配置,新手也能快速上手。 使用这套工具时也有不少需要注意的地方,比如手机要长期插电并连接稳定 Wi-Fi,否则服务容易中断;还要给 KSWEB 和 Termux 关闭电池优化、放开存储权限,我用小米手机测试时就因为没关后台限制,导致 Apache 服务频繁被系统杀掉,折腾了好一会儿才排查出问题;另外非 Root 机型也能使用,但部分文件权限操作会稍显繁琐。 不过仅靠 KSWEB 部署完博客后,只能在局域网内访问,这会带来很多不便:比如在家用电脑能连手机看博客,

Web 毕设篇-适合小白、初级入门练手的 Spring Boot Web 毕业设计项目:教室信息管理系统(前后端源码 + 数据库 sql 脚本)

Web 毕设篇-适合小白、初级入门练手的 Spring Boot Web 毕业设计项目:教室信息管理系统(前后端源码 + 数据库 sql 脚本)

🔥博客主页: 【小扳_-ZEEKLOG博客】 ❤感谢大家点赞👍收藏⭐评论✍         1.0 项目介绍         开发工具:IDEA、VScode         服务器:Tomcat, JDK 17         项目构建:maven         数据库:mysql 8.0 系统用户前台和管理后台两部分,项目采用前后端分离         前端技术:vue3 + elementUI         服务端技术:springboot + mybatis + redis + mysql         1.1 项目功能 后台功能:         1)登录、退出系统、首页         2)教室管理                 (1) 教室管理:添加、修改、删除、查询等功能。         3)教师管理