如何下载、安装whisper、faster_whisper?

1、模型种类

whisper:有很多模型:tiny、base、small、medium、large等

faster_whisper:模型种类与whisper类似

2、模型安装

特别注意:whisper和faster_whisper中的模型,有两种获得方式。

①在网址:https://github.com/openai/whisper上有提示:pip install -U openai-whisper,下载结果为  .pt文件。在网址:https://github.com/SYSTRAN/faster-whisper上有提示:pip install faster-whisper,下载结果为.pt文件

②在网址:https://huggingface.co/,进行搜索 whisper,根据提示,可以下载 large-v3和large-v3-turbo,下载结果为文件,与①不同(特别注意)

3.模型运行

①按照①方法下载的模型:运行代码参考网址:https://github.com/openai/whisperhttps://github.com/openai/whisper ,示例如下:

import whisper

model = whisper.load_model("turbo")

# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)

以上代码,要求# load audio and pad/trim it to fit 30 seconds,提示:whisper模型要求一句话进行识别,如果音频时间太短,可能识别结果不准确,具体请自行尝试。

②按照①方法下载的模型:运行代码参考网址:https://github.com/SYSTRAN/faster-whisperhttps://github.com/SYSTRAN/faster-whisper ,示例如下:

from faster_whisper import WhisperModel

model_size = "large-v3"

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# or run on GPU with INT8
# model = WhisperModel(model_size, device="cuda", compute_type="int8_float16")
# or run on CPU with INT8
# model = WhisperModel(model_size, device="cpu", compute_type="int8")

segments, info = model.transcribe("audio.mp3", beam_size=5)

print("Detected language '%s' with probability %f" % (info.language, info.language_probability))

for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

以上代码,model=WhisperModel(...),可以指定cuda编号,以便合理利用资源。

③按照②方法下载的模型,可以参考vllm网址:https://github.com/vllm-project/vllmhttps://github.com/vllm-project/vllm

vllm框架中的whisper模型和faster_whisper模型一定是来自huggingface。

关于vllm安装踩坑问题,以后发布。

Read more

赋予 AI 大模型“联网”超能力:Serper (Google Search API) 深度解析与实战

赋予 AI 大模型“联网”超能力:Serper (Google Search API) 深度解析与实战

目录 赋予 AI 大模型“联网”超能力:Serper (Google Search API) 深度解析与实战 什么是 Serper? 为什么在众多 API 中选择 Serper? 核心应用场景 实战演练:使用 Python 快速接入 1. 获取 API Key 2. Python 代码实现 3. 解析 JSON 响应 总结 赋予 AI 大模型“联网”超能力:Serper (Google Search API) 深度解析与实战 在当今的 AI 开发和数据抓取领域,获取实时、准确的互联网信息是构建强大应用的核心环节。如果你曾尝试过自己编写爬虫去抓取

AI 编程助手价格与体验对比:Claude Code vs 国产替代(通义灵码 / 文心快码 / MarsCode / 腾讯系)

目录 * 1. 为什么要做这篇对比:开发效率正在被“定价”重塑 * 2. Claude Code 要不要付费?费用结构如何理解 * 3. 国产替代有哪些:定位差异与适用人群 * 4. 对比表格:价格、能力、生态、适配场景一张看懂 * 5. 实战:同一组任务对比补全 / 重构 / 测试 / 审查 * 6. 选型建议:按场景快速决策 * 7. 总结:把“工作流收益”放进预算里 1. 为什么要做这篇对比:开发效率正在被“定价”重塑 AI 编程助手已经从“写几行代码的尝鲜工具”,变成了能够影响交付节奏、代码质量与团队协作方式的生产力组件。Claude Code 代表了国际一线模型能力与工程体验;国产阵营(通义灵码、文心快码、

提升效率:用快马AI一键生成windows18-hd19风格的CSS组件库

提升效率:用快马AI一键生成windows18-hd19风格的CSS组件库 最近在做一个需要windows18-hd19设计风格的项目,这种风格的界面元素特别多,手动编写样式简直让人头大。光是调色板、阴影效果这些基础样式就要折腾半天,更别说那些复杂的交互组件了。好在发现了InsCode(快马)平台,用它的AI辅助功能可以快速生成高质量的CSS代码,效率提升不是一点点。 基础样式变量定义 windows18-hd19风格最明显的特点就是它的配色和视觉效果。传统做法需要手动查找设计规范,然后逐个定义CSS变量: 1. 主题色通常采用深色系搭配高饱和度的强调色 2. 字体需要兼顾现代感和可读性 3. 阴影效果要有层次感但不过于夸张 4. 过渡动画需要平滑自然 手动做这些工作至少要花上半天时间,而且容易出错。但在快马平台,只需要简单描述需求,AI就能生成一套完整的基础变量: * 定义了一套完整的颜色系统,包括主色、次色、背景色、文本色等 * 设置了符合windows18-hd19风格的字体栈 * 预定义了多级阴影效果,从轻微到强烈都有 * 包含了标准的过渡时间和缓

当 AI 嚼碎数据吐模块,人类开发者的创意还能留几行?—— 老码农的反编译式安心剂

当 AI 嚼碎数据吐模块,人类开发者的创意还能留几行?—— 老码农的反编译式安心剂

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏+关注哦 💕 目录 * 当 AI 嚼碎数据吐模块,人类开发者的创意还能留几行?—— 老码农的反编译式安心剂 * 📚 一、那些被 AI 吓得半夜查招聘网站的日子 * 📚 二、AI 生成功能模块的底层逻辑:它不是创意家,是数据缝合怪 * 📘 2.1 AI 生成功能的三板斧:统计、模仿与排列组合 * 📘 2.2 人类创意 vs AI 生成:核心差异在哪? * 📘 2.3 代码演示:AI 能生成 "正确" 的代码,但生成不了 "贴心&