本地离线部署whisper模型进行话音转写,亲测可用

在本地搭建 Whisper 语音转写环境比较简单,以下是详细步骤,适用于 Windows、macOS 和 Linux 系统,其中windows系统亲测可用:

一、基础环境准备

  1. 安装 Python
    确保安装 Python 3.8+:
  2. 验证 Python 安装
    打开命令行(CMD/PowerShell/ 终端),输入:python --version # 或 python3 --version(macOS/Linux),显示版本号即表示安装成功。

二、安装 Whisper

         # 国内镜像加速(可选)

          pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

  1. 安装核心库
    命令行输入以下命令(国内用户可加镜像加速):
    # 基础安装(默认包含轻量模型支持) pip install openai-whisper
  2. 安装音频处理依赖
    Whisper 需要额外工具处理音频格式:Windows:下载并安装 FFmpeg,将 ffmpeg.exe 所在目录添加到系统环境变量 PATH

三、下载 Whisper 模型(可选)

Whisper 会自动下载所需模型,也可提前手动下载(推荐大型模型 large-v3 以获得最佳效果):

# 安装时指定模型(自动下载) pip install "openai-whisper[large-v3]"

模型会保存在以下路径(可手动替换或管理):

  • Windows:C:\Users\你的用户名\.cache\whisper\
  • macOS/Linux:~/.cache/whisper/

四、基本使用方法

1. 命令行直接转写

# 转写音频文件(支持 WAV/MP3/MP4 等格式)

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

# 示例(替换为你的文件路径)

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

2. 关键参数说明
  • --model:指定模型(tiny/base/small/medium/large-v3,越大精度越高,需求资源越多)
  • --language Chinese:指定语言为中文(避免自动检测错误)
  • --output_dir 输出目录:指定结果保存路径
  • --format txt:输出格式(支持 txt/srt/vtt 等)

五、Python 脚本调用(进阶)

import whisper
import os
import pathlib
import subprocess
from zhconv import convert  # 用于繁转简

def check_ffmpeg():
    """检查FFmpeg是否安装并配置正确"""
    try:
        subprocess.run(
            ["ffmpeg", "-version"],
            check=True,
            stdout=subprocess.PIPE,
            stderr=subprocess.PIPE,
            text=True
        )
        return True
    except FileNotFoundError:
        print("错误:未找到FFmpeg工具,请先安装并配置环境变量")
        return False
    except Exception as e:
        print(f"FFmpeg检查失败:{str(e)}")
        return False

def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
    # 检查FFmpeg
    if not check_ffmpeg():
        return None

    # 验证音频文件路径
    audio_path = str(pathlib.Path(audio_path).resolve())
    
    if not os.path.exists(audio_path):
        print(f"错误:音频文件不存在 '{audio_path}'")
        return None
    
    if not os.path.isfile(audio_path):
        print(f"错误:'{audio_path}' 不是有效的文件")
        return None

    # 加载模型并转写
    try:
        print(f"开始加载模型 {model_name}...")
        model = whisper.load_model(model_name, device="cpu")
        
        print(f"开始转写文件:{audio_path}")
        # 关键设置:明确指定中文,并关闭自动语言检测
        result = model.transcribe(
            audio=audio_path,
            language="Chinese",  # 强制指定中文
            verbose=True,
            fp16=False,
            initial_prompt="请用简体中文转写,不要使用繁体中文。"  # 提示模型使用简体
        )
        
        # 强制将结果转换为简体中文(双重保险)
        simplified_text = convert(result["text"], 'zh-cn')
        
        # 保存结果
        output_dir = "whisper_results"
        os.makedirs(output_dir, exist_ok=True)
        audio_name = os.path.splitext(os.path.basename(audio_path))[0]
        output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")
        
        with open(output_path, "w", encoding="utf-8") as f:
            f.write(simplified_text)
        
        print(f"\n✅ 转写完成(已转换为简体中文),结果保存至:{output_path}")
        return simplified_text
        
    except Exception as e:
        print(f"转写过程出错:{str(e)}")
        return None

if __name__ == "__main__":
    # 安装繁转简依赖(首次运行需要)
    try:
        import zhconv
    except ImportError:
        print("正在安装繁转简依赖...")
        subprocess.run(["pip", "install", "zhconv"], check=True)
        import zhconv

    # 替换为你的音频文件路径
    audio_file = r"D:\Net_Program\test\whisper-test.wav"
    transcribe_audio(audio_file)
    

六、常见问题解决

  1. 内存不足
    • 若提示 OutOfMemoryError,换用更小的模型(如 medium 或 small
    • 关闭其他占用内存的程序(large-v3 建议至少 16GB 内存)
  2. 音频格式错误
    • 用 FFmpeg 转换格式:ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav(转为 16kHz 单声道 WAV)
  3. 模型下载慢
    • 手动下载模型文件(可在 Hugging Face 找到),放入 .cache/whisper/ 目录

通过以上步骤,你可以在本地搭建一个稳定的 Whisper 转写环境,无需依赖 Ollama,直接调用模型进行语音转写。如果追求更高精度,优先使用 large-v3 模型;若注重速度或资源有限,可选择 small 或 base 模型。

Read more

开箱即用:支持ChatGLM/文心一言的API管理镜像部署手册

开箱即用:支持ChatGLM/文心一言的API管理镜像部署手册 1. 为什么你需要这个镜像——告别密钥混乱与模型适配烦恼 你是否遇到过这样的场景: * 项目里同时调用文心一言写营销文案、用ChatGLM做内部知识问答、再接入通义千问生成技术文档,结果每个模型都要单独配置api_key、base_url、请求头格式、流式开关逻辑……代码里堆满条件判断; * 测试环境用的是本地Ollama的Qwen2,生产环境切到百度千帆的文心一言4.5,一改base_url和模型名,就报400 Bad Request——原来千帆不支持OpenAI原生的temperature字段命名,得改成top_p; * 运维同事半夜被报警电话叫醒:“线上服务崩了!查了一小时发现是讯飞星火的API密钥过期了,但没人知道它被用在哪个微服务里……” 这些问题,不是你代码写得不够好,而是缺一个统一的API网关层。 这不是一个需要你从零搭建的复杂系统,而是一个真正“开箱即用”的镜像——它把所有主流大模型(包括ChatGLM、文心一言、通义千问、讯飞星火等)的差异全部封装掉,对外只暴露标准的OpenAI API

AIGC情感化升级实战:如何将智能客服投诉率从12%降至3.2%

背景痛点:为什么你的智能客服总被投诉? 智能客服已经成为企业服务标配,但高投诉率却让很多技术团队头疼。行业平均12%的投诉率背后,隐藏着几个关键的技术短板。 首先,传统规则引擎和简单意图识别无法捕捉用户情绪。当用户说“我的订单还没到”,系统可能只识别“查询订单”意图,却忽略了语气中的焦急和不满。这种情感盲区导致回复机械,无法安抚用户情绪。 其次,上下文断裂问题严重。用户在多轮对话中提及的信息,系统经常“忘记”,导致用户需要反复说明问题,体验极差。 最后,回复生成缺乏人性化。基于模板的回复千篇一律,无法根据用户情绪调整语气和措辞,让用户感觉在与机器对话。 这些痛点叠加,最终导致用户满意度下降,投诉率居高不下。要解决这些问题,我们需要为智能客服注入“情感智能”。 技术方案:构建情感化智能客服的三层架构 1. 情感识别模型选型:BERT vs LSTM的实战对比 情感识别是情感化升级的基础。我们对比了两种主流方案: LSTM方案: * 优点:训练速度快,资源消耗低,在小规模标注数据上表现良好 * 缺点:

AI绘画助手Moondream2:一键反推高清图片提示词

AI绘画助手Moondream2:一键反推高清图片提示词 你是否曾盯着一张惊艳的AI生成图反复琢磨:“这提示词到底怎么写的?” 是否在Stable Diffusion或SDXL里反复调试几十次,却始终达不到原图的光影质感、构图张力或细节密度? 更别提那些藏在专业作品背后的隐藏技巧:“8k resolution, cinematic lighting, subsurface scattering on skin”——这些精准到毫米级的描述,普通人根本无从下手。 今天要介绍的不是又一个“更大更快”的模型,而是一个专为AI绘画者量身打造的视觉翻译器:🌙 Local Moondream2。它不生成图,却比任何画图工具都更懂“如何让AI画出好图”。它把一张图变成一段可复制、可复用、可微调的专业级英文提示词,全程本地运行,零数据上传,三秒出结果。 这不是概念演示,而是我过去两周每天高频使用的生产力插件——修图前先丢给Moondream2“读图”,再把生成的提示词粘贴进ComfyUI节点,出图质量提升最直观的体现是:第一次生成就接近终稿,省下90%的重绘时间。 1. 它不是另一个VLM,

一杯咖啡成本搞定多模态微调:FC DevPod + Llama-Factory 极速实战

作者:王骜 作为一个 AI 开发者,你一定经历过这样的绝望时刻:兴致勃勃地下载了最新的 Qwen2-VL 权重,准备用自己的垂直领域数据跑一次 SFT(监督微调)。然而,现实却是残酷的—— * RuntimeError: CUDA out of memory—— 显存不够,模型加载失败。 * Driver/Library version mismatch—— 驱动版本不对,环境配置陷入死循环。 * 看着云厂商 GPU 实例高昂的包月账单,犹豫着要不要为了这几小时的实验按下“购买”键。 技术的进步本该是为了释放创造力,而不是增加门槛。在 Serverless 时代,算力应该像水电一样,扭开水龙头就有,关上就停,按需付费。 今天,我们将打破“微调=昂贵+麻烦”的刻板印象。不需要囤积显卡,也不需要精通运维,