本地离线部署whisper模型进行话音转写，亲测可用

优质文章学习记录

08 Apr 2026 — 5 min read

在本地搭建 Whisper 语音转写环境比较简单，以下是详细步骤，适用于 Windows、macOS 和 Linux 系统，其中windows系统亲测可用：

一、基础环境准备

安装 Python
确保安装 Python 3.8+：
- 下载地址：python.org/downloads
- 安装时勾选 "Add Python to PATH"（关键步骤）
验证 Python 安装
打开命令行（CMD/PowerShell/ 终端），输入：python --version # 或 python3 --version（macOS/Linux），显示版本号即表示安装成功。

二、安装 Whisper

# 国内镜像加速（可选）

pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple

安装核心库
命令行输入以下命令（国内用户可加镜像加速）：
# 基础安装（默认包含轻量模型支持） pip install openai-whisper
安装音频处理依赖
Whisper 需要额外工具处理音频格式：Windows：下载并安装 FFmpeg，将 ffmpeg.exe 所在目录添加到系统环境变量 PATH。

三、下载 Whisper 模型（可选）

Whisper 会自动下载所需模型，也可提前手动下载（推荐大型模型 large-v3 以获得最佳效果）：

# 安装时指定模型（自动下载） pip install "openai-whisper[large-v3]"

模型会保存在以下路径（可手动替换或管理）：

Windows：C:\Users\你的用户名\.cache\whisper\
macOS/Linux：~/.cache/whisper/

四、基本使用方法

1. 命令行直接转写

# 转写音频文件（支持 WAV/MP3/MP4 等格式）

whisper 你的音频文件路径.wav --model large-v3 --language Chinese

# 示例（替换为你的文件路径）

whisper D:\Net_Program\test\whisper-test.wav --model large-v3 --language Chinese

2. 关键参数说明

--model：指定模型（tiny/base/small/medium/large-v3，越大精度越高，需求资源越多）
--language Chinese：指定语言为中文（避免自动检测错误）
--output_dir 输出目录：指定结果保存路径
--format txt：输出格式（支持 txt/srt/vtt 等）

五、Python 脚本调用（进阶）

import whisper
import os
import pathlib
import subprocess
from zhconv import convert # 用于繁转简

def check_ffmpeg():
"""检查FFmpeg是否安装并配置正确"""
try:
subprocess.run(
["ffmpeg", "-version"],
check=True,
stdout=subprocess.PIPE,
stderr=subprocess.PIPE,
text=True
)
return True
except FileNotFoundError:
print("错误：未找到FFmpeg工具，请先安装并配置环境变量")
return False
except Exception as e:
print(f"FFmpeg检查失败：{str(e)}")
return False

def transcribe_audio(audio_path, model_name="large-v3", language="Chinese"):
# 检查FFmpeg
if not check_ffmpeg():
return None

# 验证音频文件路径
audio_path = str(pathlib.Path(audio_path).resolve())

if not os.path.exists(audio_path):
print(f"错误：音频文件不存在 '{audio_path}'")
return None

if not os.path.isfile(audio_path):
print(f"错误：'{audio_path}' 不是有效的文件")
return None

# 加载模型并转写
try:
print(f"开始加载模型 {model_name}...")
model = whisper.load_model(model_name, device="cpu")

print(f"开始转写文件：{audio_path}")
# 关键设置：明确指定中文，并关闭自动语言检测
result = model.transcribe(
audio=audio_path,
language="Chinese", # 强制指定中文
verbose=True,
fp16=False,
initial_prompt="请用简体中文转写，不要使用繁体中文。" # 提示模型使用简体
)

# 强制将结果转换为简体中文（双重保险）
simplified_text = convert(result["text"], 'zh-cn')

# 保存结果
output_dir = "whisper_results"
os.makedirs(output_dir, exist_ok=True)
audio_name = os.path.splitext(os.path.basename(audio_path))[0]
output_path = os.path.join(output_dir, f"{audio_name}_transcript.txt")

with open(output_path, "w", encoding="utf-8") as f:
f.write(simplified_text)

print(f"\n✅ 转写完成（已转换为简体中文），结果保存至：{output_path}")
return simplified_text

except Exception as e:
print(f"转写过程出错：{str(e)}")
return None

if __name__ == "__main__":
# 安装繁转简依赖（首次运行需要）
try:
import zhconv
except ImportError:
print("正在安装繁转简依赖...")
subprocess.run(["pip", "install", "zhconv"], check=True)
import zhconv

# 替换为你的音频文件路径
audio_file = r"D:\Net_Program\test\whisper-test.wav"
transcribe_audio(audio_file)

六、常见问题解决

内存不足
- 若提示 OutOfMemoryError，换用更小的模型（如 medium 或 small）
- 关闭其他占用内存的程序（large-v3 建议至少 16GB 内存）
音频格式错误
- 用 FFmpeg 转换格式：ffmpeg -i 输入文件.mp3 -ar 16000 -ac 1 输出文件.wav（转为 16kHz 单声道 WAV）
模型下载慢
- 手动下载模型文件（可在 Hugging Face 找到），放入 .cache/whisper/ 目录

通过以上步骤，你可以在本地搭建一个稳定的 Whisper 转写环境，无需依赖 Ollama，直接调用模型进行语音转写。如果追求更高精度，优先使用 large-v3 模型；若注重速度或资源有限，可选择 small 或 base 模型。

AI 开发必用的4个skills组合，用来流畅掌控AI开发流程，灵活控制AI（opencode skills）

skills 一种技能增强器。 skills 可以理解为升级版的提示词，它的文件记录了某个skill（技能）的元信息，就是描述这个skills的名称等信息，另外它的文件中还记录了skills的技能实现步骤。以下4个skills在AI项目开发中，我认为必不可缺一。这4个skills的引入，可更为方便我们去介入AI，控制AI，给AI制定边界。我会用一个音乐机器人项目开发来介绍这4个skills，如何介入AI开发流程，如何行云流水的控制AI。指令式控制AI 开发流程的主控调度器：有4个SIKLLS 在我的项目中.opencode目录中存在4个skills， 4个skills技能结合和.opencode目录同级的AGNETS.md文档，AGNETS.md是主控配置文件，是AI 开发流程的主控调度器，负责协调三个专业技能包（毒蛇产品经理、UI设计师、全栈开发工程师、ui-ux-pro-max） ui-ux-pro-max技能包，我120%的推荐，减少了不少UI配色的塑料感，可在文末看我此次，用技能包开发的UI界面，做一个效果对比。 skills技能指令：我

最新！2026年3月全球大模型全景：国产登顶、百万上下文、智能体爆发，AI进入实用新纪元

🔥个人主页：北极的代码（欢迎来访） 🎬作者简介：java后端学习者 ❄️个人专栏：苍穹外卖日记，SSM框架深入，JavaWeb ✨命运的结局尽可永在，不屈的挑战却不可须臾或缺！前言：2026年3月，全球大模型领域迎来史诗级爆发，OpenAI、谷歌等海外巨头持续突破技术边界，国产大模型实现全球调用量反超、旗舰模型登顶国际盲测的双重突破。本文汇总3月国内外大模型最新动态、核心技术趋势、产业落地进展，解读AI从“参数内卷”走向“实用落地”的关键变革，助力开发者把握行业前沿。 2026年3月，全球大模型领域迎来史诗级密集爆发：OpenAI、谷歌、Meta等海外巨头持续领跑技术边界，中国大模型则实现全球调用量反超、旗舰模型登顶国际盲测、端侧与行业应用全面落地的三重突破。从百万Token上下文成为标配，到原生多模态与电脑控制能力成熟，再到AI智能体（Agent）从概念走向规模化商用，大模型正式告别“参数内卷”，进入效率优先、场景为王、生态重构的实用主义时代。一、国际巨头：上下文军备竞赛白热化，Agent能力全面进化 3月海外巨头密集发布新版本，

除了 OpenClaw，今天 AI 热榜还有什么值得看？我把 5 个重点方向讲清楚了

🔥 个人主页：杨利杰YJlio❄️ 个人专栏：《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》《Python》《Kali Linux》《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更简单，让重复的工作自动化除了 OpenClaw，今天 AI 热榜还有什么值得看？我把 5 个重点方向讲清楚了 * 除了 OpenClaw，今天 AI 热榜还有什么值得看？我把 5 个重点方向讲清楚了 * 1. 我先说结论：今天这波 AI 热榜，最重要的不是“谁最火”，而是“风向变了” * 2. GoogleCloudPlatform / generative-ai：平台生态正在成为真正的护城河 * 3. MiroFish：群体智能和多智能体，开始从概念走向更具体的产品叙事

扣子（Coze） Skills+OpenClaw 实战：零基础玩转AI智能体

最近龙虾太火了，但大家满怀期待地装好小龙虾，面对界面却无从下手，最后只能让这么强大的智能体在电脑里吃灰，甚至还要再花钱找人帮忙卸载。同样部署了OpenClaw，为什么别人能用它提效工作、做账号，你的小龙虾却只会陪聊、不断失忆，最终空耗Token，白白烧光你的钱包？答案很扎心：因为你的小龙虾，缺少最关键的核心武器——Skills（技能）！当Agent装备上Skills，它会瞬间进化成能替你跑腿、帮你创收的“数字分身”！别再让你的“小龙虾”在无效对话中白白浪费算力了。资深AI专家邢云阳倾力打造的新书《扣子（Coze） Skills+OpenClaw 实战：零基础玩转AI智能体》，将带你打通从“零基础部署”到“高阶应用”的全链路。本书不仅教你用上龙虾，更手把手教你玩转Skills，让这只龙虾真正成为替你打工的超级利器！看完这本书，AI真的会替你干活！ ▼点击下方，即可购书 Part.1 什么是Skills？ Skills是Anthropic专为Claude打造的模块化能力框架，现今已被众多大语言模型工具借鉴沿用。简单