本地离线部署whisper模型进行话音转写,亲测可用

在本地搭建 Whisper 语音转写环境比较简单,以下是详细步骤,适用于 Windows、macOS 和 Linux 系统,其中windows系统亲测可用:

一、基础环境准备

  1. 安装 Python
    确保安装 Python 3.8+:
  2. 验证 Python 安装
    打开命令行(CMD/PowerShell/ 终端),输入:python --version # 或 python3 --version(macOS/Linux),显示版本号即表示安装成功。

二、安装 Whisper

         # 国内镜像加速(可选)

          pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

  1. 安装核心库
    命令行输入以下命令(国内用户可加镜像加速):
    # 基础安装(默认包含轻量模型支持) pip install openai-whisper
  2. 安装音频处理依赖
    Whisper 需要额外工具处理音频格式:Windows:下载并安装 FFmpeg,将 ffmpeg.exe 所在目录添加到系统环境变量 PATH

三、下载 Whisper 模型(可选)

Whisper 会自动下载所需模型,也可提前手动下载(推荐大型模型 large-v3 以获得最佳效果):

# 安装时指定模型(自动下载) pip install "openai-whisper[large-v3]"

模型会保存在以下路径(可手动替换或管理):

  • Windows:C:\Users\你的用户名\.cache\whisper\
  • macOS/Linux:~/.cache/whisper/

四、基本使用方法

1. 命令行直接转写

# 转写音频文件(支持 WAV/MP3/MP4 等格式)

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

# 示例(替换为你的文件路径)

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

2. 关键参数说明
  • --model:指定模型(tiny/base/small/medium/large-v3,越大精度越高,需求资源越多)
  • --language Chinese:指定语言为中文(避免自动检测错误)
  • --output_dir 输出目录:指定结果保存路径
  • --format txt:输出格式(支持 txt/srt/vtt 等)

五、Python 脚本调用(进阶)

import whisper
import os
import pathlib
import subprocess
from zhconv import convert  # 用于繁转简

def check_ffmpeg():
    """检查FFmpeg是否安装并配置正确"""
    try:
        subprocess.run(
            ["ffmpeg", "-version"],
            check=True,
            stdout=subprocess.PIPE,
            stderr=subprocess.PIPE,
            text=True
        )
        return True
    except FileNotFoundError:
        print("错误:未找到FFmpeg工具,请先安装并配置环境变量")
        return False
    except Exception as e:
        print(f"FFmpeg检查失败:{str(e)}")
        return False

def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
    # 检查FFmpeg
    if not check_ffmpeg():
        return None

    # 验证音频文件路径
    audio_path = str(pathlib.Path(audio_path).resolve())
    
    if not os.path.exists(audio_path):
        print(f"错误:音频文件不存在 '{audio_path}'")
        return None
    
    if not os.path.isfile(audio_path):
        print(f"错误:'{audio_path}' 不是有效的文件")
        return None

    # 加载模型并转写
    try:
        print(f"开始加载模型 {model_name}...")
        model = whisper.load_model(model_name, device="cpu")
        
        print(f"开始转写文件:{audio_path}")
        # 关键设置:明确指定中文,并关闭自动语言检测
        result = model.transcribe(
            audio=audio_path,
            language="Chinese",  # 强制指定中文
            verbose=True,
            fp16=False,
            initial_prompt="请用简体中文转写,不要使用繁体中文。"  # 提示模型使用简体
        )
        
        # 强制将结果转换为简体中文(双重保险)
        simplified_text = convert(result["text"], 'zh-cn')
        
        # 保存结果
        output_dir = "whisper_results"
        os.makedirs(output_dir, exist_ok=True)
        audio_name = os.path.splitext(os.path.basename(audio_path))[0]
        output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")
        
        with open(output_path, "w", encoding="utf-8") as f:
            f.write(simplified_text)
        
        print(f"\n✅ 转写完成(已转换为简体中文),结果保存至:{output_path}")
        return simplified_text
        
    except Exception as e:
        print(f"转写过程出错:{str(e)}")
        return None

if __name__ == "__main__":
    # 安装繁转简依赖(首次运行需要)
    try:
        import zhconv
    except ImportError:
        print("正在安装繁转简依赖...")
        subprocess.run(["pip", "install", "zhconv"], check=True)
        import zhconv

    # 替换为你的音频文件路径
    audio_file = r"D:\Net_Program\test\whisper-test.wav"
    transcribe_audio(audio_file)
    

六、常见问题解决

  1. 内存不足
    • 若提示 OutOfMemoryError,换用更小的模型(如 medium 或 small
    • 关闭其他占用内存的程序(large-v3 建议至少 16GB 内存)
  2. 音频格式错误
    • 用 FFmpeg 转换格式:ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav(转为 16kHz 单声道 WAV)
  3. 模型下载慢
    • 手动下载模型文件(可在 Hugging Face 找到),放入 .cache/whisper/ 目录

通过以上步骤,你可以在本地搭建一个稳定的 Whisper 转写环境,无需依赖 Ollama,直接调用模型进行语音转写。如果追求更高精度,优先使用 large-v3 模型;若注重速度或资源有限,可选择 small 或 base 模型。

Read more

Techub News 專訪高鋒集團合夥人、Web3Labs行政總裁黃俊瑯:以資本與生態,賦能傳統企業Web3轉型

本次專訪聚焦高鋒集團如何透過資本投入與生態資源,助力傳統企業邁向Web3轉型。從近期戰略參與上市公司德祥地產的配股出發,高鋒集團合夥人、Web3Labs CEO黃俊瑯(Caspar)分享了集團的戰略思考、核心優勢、執行機制,以及對傳統企業轉型痛點的觀察與未來願景。這場對話展現了高鋒集團與Web3Labs在「實物資產代幣化」(RWA)等領域的創新實踐,以及他們致力成為傳統企業數字化轉型可靠夥伴的定位。 戰略投資德祥地產:搭建Web3與傳統實體經濟的橋樑 Techub News:Caspar您好。我們注意到高鋒集團近期戰略性參與了上市公司德祥地產的配股。這在市場看來頗為創新,能否請您談談這次投資背後的戰略思考? 黃俊瑯:這次對德祥地產的投資,對我們而言,遠超一次單純的財務投資。它是一個清晰的信號,也是我們戰略的關鍵落子。高鋒集團的核心使命之一,是搭建Web3前沿科技與傳統實體經濟之間的橋樑。德祥擁有紮實的房地產業務與實物資產,這正是探索「實物資產代幣化」(RWA)最具潛力的領域。我們這次參與,是協助其啟動轉型的第一步,未來將結合我們的專業生態,共同探索如何利用區塊鏈技術提升資產流

用OpenClaw做qq ai办公机器人(支持群聊关键词触发+自定义域名发送任意邮件)

用OpenClaw做qq ai办公机器人(支持群聊关键词触发+自定义域名发送任意邮件)

1.OpenClaw对接QQ(qq账号当机器人使用) 在任意文件夹创建项目文件夹napcat及需要的文件夹,并创建docker-compose.yml mkdir -p napcat && cd napcat mkdir -p config .config logs docker-compose.yml内容参考 services: napcat: image: mlikiowa/napcat-docker:latest container_name: napcat restart: unless-stopped environment: - NAPCAT_UID=${NAPCAT_UID:-1000} - NAPCAT_GID=${NAPCAT_GID:-1000} - MESSAGE_POST_FORMAT=string # 网络服务(

西门子PLC1200立体库机器人码垛机伺服视觉AGV程序大揭秘

西门子PLC1200立体库机器人码垛机伺服视觉AGV程序大揭秘

西门子PLC1200立体库机器人码垛机伺服视觉AGV程序 包括2台西门子PLC1215程序和2台西门子触摸屏TP700程序 PLC和基恩士相机视觉定位Modbus TCP通讯(SCL语言) PLC和ABB机器人Modbus TCP通讯(SCL语言) PLC和码垛机Modbus TCP通讯(SCL语言) PLC和4台G120变频器Profinet通讯 1个伺服轴,AGV SCL语言和梯形图混编,经典程序,知识点丰富,注释全。 在自动化控制领域,西门子PLC1200系列凭借其强大的功能和灵活性,广泛应用于各类复杂系统。今天就来聊聊包含两台西门子PLC1215程序、两台西门子触摸屏TP700程序的立体库机器人码垛机伺服视觉AGV程序,这里面涉及多种设备通讯以及丰富的编程技巧,知识点满满哦! PLC与基恩士相机视觉定位Modbus TCP通讯(SCL语言) Modbus TCP是工业领域常用的通讯协议,用于实现不同设备间的数据交互。在与基恩士相机通讯时,我们使用SCL语言来编写代码,下面是一个简单示例: VAR // 定义通讯相关变量 MB_CLIENT : "MB_CLIENT";

从零开始“养龙虾”:OpenClaw 本地极简部署与 QQ 机器人接入全保姆级教程

从零开始“养龙虾”:OpenClaw 本地极简部署与 QQ 机器人接入全保姆级教程

文章目录 * 引言 * 什么是 OpenClaw? * 为什么选择 OpenClaw? * 一、基础环境准备 * 1. 安装 Node.js (v22及以上) * 2.安装 Git * 3. 解决 npm 被拦截(没报错跳过) * 二、一键部署与唤醒“龙虾” * 1.全自动拉取与组装 * 2.醒龙虾与配置“大脑” * 三、接入官方 QQ 机器人(可选) * 1. 领取官方机器人的“身份证” * 2. 本地安装专属通信插件 * 3. 结果展示 * 总结 引言 什么是 OpenClaw? 最近开源界有一只“红皮小龙虾”非常火,它就是 OpenClaw。