本地离线部署whisper模型进行话音转写，亲测可用

优质文章学习记录

08 Apr 2026 — 5 min read

在本地搭建 Whisper 语音转写环境比较简单，以下是详细步骤，适用于 Windows、macOS 和 Linux 系统，其中windows系统亲测可用：

一、基础环境准备

安装 Python
确保安装 Python 3.8+：
- 下载地址：python.org/downloads
- 安装时勾选 "Add Python to PATH"（关键步骤）
验证 Python 安装
打开命令行（CMD/PowerShell/ 终端），输入：python --version # 或 python3 --version（macOS/Linux），显示版本号即表示安装成功。

二、安装 Whisper

# 国内镜像加速（可选）

pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

安装核心库
命令行输入以下命令（国内用户可加镜像加速）：
# 基础安装（默认包含轻量模型支持） pip install openai-whisper
安装音频处理依赖
Whisper 需要额外工具处理音频格式：Windows：下载并安装 FFmpeg，将 ffmpeg.exe 所在目录添加到系统环境变量 PATH。

三、下载 Whisper 模型（可选）

Whisper 会自动下载所需模型，也可提前手动下载（推荐大型模型 large-v3 以获得最佳效果）：

# 安装时指定模型（自动下载） pip install "openai-whisper[large-v3]"

模型会保存在以下路径（可手动替换或管理）：

Windows：C:\Users\你的用户名\.cache\whisper\
macOS/Linux：~/.cache/whisper/

四、基本使用方法

1. 命令行直接转写

# 转写音频文件（支持 WAV/MP3/MP4 等格式）

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

# 示例（替换为你的文件路径）

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

2. 关键参数说明

--model：指定模型（tiny/base/small/medium/large-v3，越大精度越高，需求资源越多）
--language Chinese：指定语言为中文（避免自动检测错误）
--output_dir 输出目录：指定结果保存路径
--format txt：输出格式（支持 txt/srt/vtt 等）

五、Python 脚本调用（进阶）

import whisper
import os
import pathlib
import subprocess
from zhconv import convert # 用于繁转简

def check_ffmpeg():
"""检查FFmpeg是否安装并配置正确"""
try:
subprocess.run(
["ffmpeg", "-version"],
check=True,
stdout=subprocess.PIPE,
stderr=subprocess.PIPE,
text=True
)
return True
except FileNotFoundError:
print("错误：未找到FFmpeg工具，请先安装并配置环境变量")
return False
except Exception as e:
print(f"FFmpeg检查失败：{str(e)}")
return False

def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
# 检查FFmpeg
if not check_ffmpeg():
return None

# 验证音频文件路径
audio_path = str(pathlib.Path(audio_path).resolve())

if not os.path.exists(audio_path):
print(f"错误：音频文件不存在 '{audio_path}'")
return None

if not os.path.isfile(audio_path):
print(f"错误：'{audio_path}' 不是有效的文件")
return None

# 加载模型并转写
try:
print(f"开始加载模型 {model_name}...")
model = whisper.load_model(model_name, device="cpu")

print(f"开始转写文件：{audio_path}")
# 关键设置：明确指定中文，并关闭自动语言检测
result = model.transcribe(
audio=audio_path,
language="Chinese", # 强制指定中文
verbose=True,
fp16=False,
initial_prompt="请用简体中文转写，不要使用繁体中文。" # 提示模型使用简体
)

# 强制将结果转换为简体中文（双重保险）
simplified_text = convert(result["text"], 'zh-cn')

# 保存结果
output_dir = "whisper_results"
os.makedirs(output_dir, exist_ok=True)
audio_name = os.path.splitext(os.path.basename(audio_path))[0]
output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")

with open(output_path, "w", encoding="utf-8") as f:
f.write(simplified_text)

print(f"\n✅ 转写完成（已转换为简体中文），结果保存至：{output_path}")
return simplified_text

except Exception as e:
print(f"转写过程出错：{str(e)}")
return None

if __name__ == "__main__":
# 安装繁转简依赖（首次运行需要）
try:
import zhconv
except ImportError:
print("正在安装繁转简依赖...")
subprocess.run(["pip", "install", "zhconv"], check=True)
import zhconv

# 替换为你的音频文件路径
audio_file = r"D:\Net_Program\test\whisper-test.wav"
transcribe_audio(audio_file)

六、常见问题解决

内存不足
- 若提示 OutOfMemoryError，换用更小的模型（如 medium 或 small）
- 关闭其他占用内存的程序（large-v3 建议至少 16GB 内存）
音频格式错误
- 用 FFmpeg 转换格式：ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav（转为 16kHz 单声道 WAV）
模型下载慢
- 手动下载模型文件（可在 Hugging Face 找到），放入 .cache/whisper/ 目录

通过以上步骤，你可以在本地搭建一个稳定的 Whisper 转写环境，无需依赖 Ollama，直接调用模型进行语音转写。如果追求更高精度，优先使用 large-v3 模型；若注重速度或资源有限，可选择 small 或 base 模型。

FPGA原理和应用

大家好，我是良许。说到 FPGA，可能很多做嵌入式的朋友都听说过，但真正深入了解的可能不多。作为一名嵌入式程序员，我在工作中虽然主要接触的是单片机和嵌入式 Linux，但在汽车电子领域，FPGA 也是一个非常重要的技术方向。今天就来和大家聊聊 FPGA 的原理和应用，希望能帮助大家对这个"神秘"的器件有更清晰的认识。 1. FPGA 是什么 1.1 FPGA 的基本概念 FPGA 的全称是 Field Programmable Gate Array，翻译过来就是"现场可编程门阵列"。这个名字听起来有点拗口，但其实很好理解。我们可以把 FPGA 想象成一块"电子积木"，你可以根据自己的需求，把这些积木搭建成不同的电路结构。与我们常用的单片机(如 STM32)

基于腾讯云云服务器搭建一个Clawdbot，实现Telegram机器人自动回复

哈咯大家好，这里依然是码农的搬运工！！从25年开始，全球都开始走向AI，拥抱AI。最近博主，也就是我，发现一个国外作者，【Peter Steinberger】在本月推出了一个新的智能体【Clawdbot】，首先我们可以先去官网看一下这个东西是什么：Clawdbot 那么我也是研究了一把，但是这个文档实在是差点把我这个大专生劝退，纯英文，废了九牛二虎之力，我才差不多看懂了。肯定有小伙伴比较好奇，那么文档给你们放出来你们也可以看看：https://docs.molt.bot/start/getting-started OK！话不多说，那我们开始实操一下：首先呢，看了一下这个文档，安装环境还是不错的，macOS/Linux、Windows【Powershell/CMD】而且作者还贴心的给了安装命令，这样就省了好大一部分精力。不需要费劲去git拉取代码编译了。【这里需要注意一点，macos系统得14+，作者只有13的系统，所以是没有办法弄mac的】当然，如果有小伙伴就是头铁，还是想从git上拉代码，那我也给你贴一下这个文档，你来安装：

Stable-Diffusion-v1-5-archive效果可解释性：注意力热力图可视化与Prompt关键token分析

Stable-Diffusion-v1-5-archive效果可解释性：注意力热力图可视化与Prompt关键token分析你有没有遇到过这样的情况：精心构思了一段提示词，满怀期待地点击生成，结果出来的图片却和你想的完全不一样？或者，你只是微调了几个词，生成的图片却天差地别。这背后，是Stable Diffusion这个“黑盒”在作祟。我们输入文字，它输出图片，但中间发生了什么，我们一无所知。今天，我们就来给这个“黑盒”开一扇窗，通过注意力热力图可视化和Prompt关键token分析，看看SD1.5模型到底是如何“理解”你的提示词，并一步步“画”出图片的。理解这个过程，不仅能让你从“玄学调参”走向“科学创作”，更能让你精准控制画面，让AI真正成为你手中得心应手的画笔。 1. 为什么需要可解释性？告别“抽卡”式生成在使用Stable Diffusion v1.5 Archive这类文生图模型时，很多用户的感觉像是在“抽卡”——输入提示词，

机器人具身智能概念

机器人具身智能概念用"核心定义→指标表现→标准体系"的三段式结构。核心定义部分强调"身体"与"智能"融合的本质，指标部分结合EIBench和GM-100两个评测体系的具体指标，标准部分引用工信部标委会的工作方向。这样既有理论高度，又有具体的量化方法和官方标准依据。具身智能（Embodied AI）是人工智能领域一种更为高级的范式。它不仅仅是给机器人装上一个"大脑"，而是强调智能必须通过物理身体与环境的实时互动才能产生和进化。简单来说，具身智能 = 机器人的"身体" + 人工智能的"大脑" + 与真实世界互动的能力。要判断一个机器人是否属于具身智能，不能只看它是否能动，而是要系统性地考察它的"大脑"是否聪明、“身体"