本地离线部署whisper模型进行话音转写,亲测可用

在本地搭建 Whisper 语音转写环境比较简单,以下是详细步骤,适用于 Windows、macOS 和 Linux 系统,其中windows系统亲测可用:

一、基础环境准备

  1. 安装 Python
    确保安装 Python 3.8+:
  2. 验证 Python 安装
    打开命令行(CMD/PowerShell/ 终端),输入:python --version # 或 python3 --version(macOS/Linux),显示版本号即表示安装成功。

二、安装 Whisper

         # 国内镜像加速(可选)

          pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

  1. 安装核心库
    命令行输入以下命令(国内用户可加镜像加速):
    # 基础安装(默认包含轻量模型支持) pip install openai-whisper
  2. 安装音频处理依赖
    Whisper 需要额外工具处理音频格式:Windows:下载并安装 FFmpeg,将 ffmpeg.exe 所在目录添加到系统环境变量 PATH

三、下载 Whisper 模型(可选)

Whisper 会自动下载所需模型,也可提前手动下载(推荐大型模型 large-v3 以获得最佳效果):

# 安装时指定模型(自动下载) pip install "openai-whisper[large-v3]"

模型会保存在以下路径(可手动替换或管理):

  • Windows:C:\Users\你的用户名\.cache\whisper\
  • macOS/Linux:~/.cache/whisper/

四、基本使用方法

1. 命令行直接转写

# 转写音频文件(支持 WAV/MP3/MP4 等格式)

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

# 示例(替换为你的文件路径)

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

2. 关键参数说明
  • --model:指定模型(tiny/base/small/medium/large-v3,越大精度越高,需求资源越多)
  • --language Chinese:指定语言为中文(避免自动检测错误)
  • --output_dir 输出目录:指定结果保存路径
  • --format txt:输出格式(支持 txt/srt/vtt 等)

五、Python 脚本调用(进阶)

import whisper
import os
import pathlib
import subprocess
from zhconv import convert  # 用于繁转简

def check_ffmpeg():
    """检查FFmpeg是否安装并配置正确"""
    try:
        subprocess.run(
            ["ffmpeg", "-version"],
            check=True,
            stdout=subprocess.PIPE,
            stderr=subprocess.PIPE,
            text=True
        )
        return True
    except FileNotFoundError:
        print("错误:未找到FFmpeg工具,请先安装并配置环境变量")
        return False
    except Exception as e:
        print(f"FFmpeg检查失败:{str(e)}")
        return False

def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
    # 检查FFmpeg
    if not check_ffmpeg():
        return None

    # 验证音频文件路径
    audio_path = str(pathlib.Path(audio_path).resolve())
    
    if not os.path.exists(audio_path):
        print(f"错误:音频文件不存在 '{audio_path}'")
        return None
    
    if not os.path.isfile(audio_path):
        print(f"错误:'{audio_path}' 不是有效的文件")
        return None

    # 加载模型并转写
    try:
        print(f"开始加载模型 {model_name}...")
        model = whisper.load_model(model_name, device="cpu")
        
        print(f"开始转写文件:{audio_path}")
        # 关键设置:明确指定中文,并关闭自动语言检测
        result = model.transcribe(
            audio=audio_path,
            language="Chinese",  # 强制指定中文
            verbose=True,
            fp16=False,
            initial_prompt="请用简体中文转写,不要使用繁体中文。"  # 提示模型使用简体
        )
        
        # 强制将结果转换为简体中文(双重保险)
        simplified_text = convert(result["text"], 'zh-cn')
        
        # 保存结果
        output_dir = "whisper_results"
        os.makedirs(output_dir, exist_ok=True)
        audio_name = os.path.splitext(os.path.basename(audio_path))[0]
        output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")
        
        with open(output_path, "w", encoding="utf-8") as f:
            f.write(simplified_text)
        
        print(f"\n✅ 转写完成(已转换为简体中文),结果保存至:{output_path}")
        return simplified_text
        
    except Exception as e:
        print(f"转写过程出错:{str(e)}")
        return None

if __name__ == "__main__":
    # 安装繁转简依赖(首次运行需要)
    try:
        import zhconv
    except ImportError:
        print("正在安装繁转简依赖...")
        subprocess.run(["pip", "install", "zhconv"], check=True)
        import zhconv

    # 替换为你的音频文件路径
    audio_file = r"D:\Net_Program\test\whisper-test.wav"
    transcribe_audio(audio_file)
    

六、常见问题解决

  1. 内存不足
    • 若提示 OutOfMemoryError,换用更小的模型(如 medium 或 small
    • 关闭其他占用内存的程序(large-v3 建议至少 16GB 内存)
  2. 音频格式错误
    • 用 FFmpeg 转换格式:ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav(转为 16kHz 单声道 WAV)
  3. 模型下载慢
    • 手动下载模型文件(可在 Hugging Face 找到),放入 .cache/whisper/ 目录

通过以上步骤,你可以在本地搭建一个稳定的 Whisper 转写环境,无需依赖 Ollama,直接调用模型进行语音转写。如果追求更高精度,优先使用 large-v3 模型;若注重速度或资源有限,可选择 small 或 base 模型。

Read more

FPGA摄像头到屏幕完整链路:从OV5640采集到HDMI实时显示(附完整工程代码)

🎬 FPGA摄像头到屏幕完整链路:从OV5640采集到HDMI实时显示(附完整工程代码) 📚 目录导航 文章目录 * 🎬 FPGA摄像头到屏幕完整链路:从OV5640采集到HDMI实时显示(附完整工程代码) * 📚 目录导航 * 概述 * 一、摄像头采集显示系统架构 * 1.1 系统整体框架 * 1.2 核心模块功能 * 1.3 数据流向与时序 * 二、OV5640摄像头基础 * 2.1 OV5640摄像头简介 * 2.2 OV5640引脚定义与功能 * 2.3 DVP接口时序详解 * 2.4 SCCB配置协议 * 2.5 OV5640初始化配置 * 三、图像采集模块设计 * 3.1 DVP采集模块架构 * 3.2 行列计数器设计 * 3.3 数据格式转换 * 3.

具身智能与视觉:机器人如何“看懂”世界?

具身智能与视觉:机器人如何“看懂”世界?

具身智能与视觉:机器人如何“看懂”世界? * 前言 * 一、具身智能的奥秘探索 * 1.1 具身智能的深度剖析 * 1.2 具身智能的发展脉络梳理 * 二、视觉:机器人感知世界的 “慧眼” * 2.1 机器人视觉系统的架构解析 * 2.2 计算机视觉技术的关键支撑 * 三、机器人如何借助视觉 “看懂” 世界 * 3.1 视觉感知与环境理解 * 3.2 视觉引导下的决策与行动 * 3.3 视觉与其他传感器的融合 * 四、具身智能中视觉技术的挑战 * 4.1 复杂环境下的视觉鲁棒性 * 4.2 实时性与计算资源的平衡 * 4.3 语义理解与常识推理的欠缺 * 五、具身智能视觉技术的未来发展趋势 * 5.

树莓派智能家居中控系统:从入门到精通的全栈指南

树莓派智能家居中控系统:从入门到精通的全栈指南 【免费下载链接】xiaozhi-esp32Build your own AI friend 项目地址: https://gitcode.com/GitHub_Trending/xia/xiaozhi-esp32 【1】原理认知:树莓派如何成为智能家居大脑? 本节将带你理解树莓派智能家居中控系统的核心工作原理,掌握数据流转的关键环节,为后续实践打下理论基础。 1.1 中控系统架构解析 树莓派智能家居系统采用"感知-决策-执行"三层架构: * 感知层:通过传感器收集环境数据(温湿度、光照、人体感应等) * 决策层:树莓派运行的控制逻辑处理感知数据并生成指令 * 执行层:各类智能设备执行控制指令 1.2 通信协议对比分析 不同设备间的通信协议各有优劣,选择合适的协议是系统稳定运行的关键: 协议类型传输距离数据速率功耗水平适用场景Wi-Fi50米150Mbps高视频监控、大数据传输Bluetooth10米2Mbps中近距离设备控制Zigbee30米250kbps低传感器网络、低功耗设备MQTT不限取决于底层网络中

春晚不用抢红包,全在刷AI?豆包和机器人疯传,2026普通人逆袭就靠这“三字经”

春晚不用抢红包,全在刷AI?豆包和机器人疯传,2026普通人逆袭就靠这“三字经”

节目里的机器人不仅会后空翻,还能听懂蔡明的相声包袱,那一夜,科技的温度第一次盖过了除夕的烟火。 当王菲的天籁之音还在演播大厅回荡,当李健的《人间共鸣》刚刚唱罢,2026年的春晚留给观众的,除了熟悉的年味,还有一种“未来已来”的具象冲击。今年春晚的“隐藏主角”不再是某款饮料或电商平台,而是看不见摸不着却无处不在的AI。 如果你错过了今年的春晚,你可能不仅仅错过了一台晚会,而是错过了理解接下来五年财富逻辑的关键信号。AI不再是极客手中的玩具,它正在以春晚为原点,迅速“飞入寻常百姓家”。 01、现象复盘:今年的春晚,不只是“看”,更是“用” 今年的春晚,科技感并非只是舞台上的炫酷特效,更是一次全民的AI应用启蒙。 首先是无处不在的AI大模型。作为独家AI云合作伙伴,火山引擎的豆包大模型贯穿了晚会全流程-1。在小品《奶奶的最爱》中,蔡明与“数字双胞胎”的互动,以及那些声音稚嫩的机器人小朋友,其声音正是由豆包的语音合成模型生成的-1。节目能精准理解蔡明的“包袱”,靠的正是AI对复杂语义的精准识别。这不仅仅是提前录好的配音,而是现场实时生成的“