【笔记】在 Windows 上安装 Python-vLLM

Ne0inhk

23 Mar 2026 — 4 min read

SystemPanic/vllm-windows：用于 LLM（Windows 构建和内核）的高吞吐量和内存效率推理和服务引擎

在 Windows 上安装 vLLM 有两种方式，分别是通过已发布的 wheel 包安装和从源码构建安装，具体步骤如下：

一、通过现有发布的 wheel 包安装（推荐）

发布 v0.11.0 ·SystemPanic/vllm-windows

vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

确认版本兼容性
确保你的 Python、PyTorch 和 CUDA 版本与 wheel 包要求一致（版本信息会在发布版本中注明）。
下载 wheel 包
从最新发布页面下载作者提供的版本（经测试：torch 和 CUDA 版本高于发布版，也能安装成功，但安装过程中会大量拉取安装其他依赖，可能会导致部分依赖被安装成与环境中其他库相冲突的版本，如 triton_windows、xformers 等，后期可能需要手动修复冲突）。

安装 wheel 包
打开命令行，使用 pip 安装下载的 wheel 文件：

pip install vllm-0.11.0+cu124-cp312-cp312-win_amd64.whl

（注意替换为实际下载的 wheel 文件路径和文件名）

二、从源码构建安装（不推荐）

前置要求

安装 Visual Studio 2019 或更高版本（需用于编译环境）。
安装 CUDA 并配置环境变量（如 CUDA_ROOT、CUDA_HOME 或 CUDA_PATH，确保系统能识别 CUDA 路径）。

步骤

安装依赖并构建

# 安装指定版本的 PyTorch（以 CUDA 12.6 为例，需与你的 CUDA 版本匹配） pip install torch==2.7.1+cu126 torchaudio==2.7.1+cu126 torchvision==0.22.1+cu126 --index-url https://download.pytorch.org/whl/cu126 # 若已安装兼容的 PyTorch，可运行以下脚本复用现有环境 python use_existing_torch.py # 安装构建依赖 pip install -r requirements/build.txt pip install -r requirements/windows.txt # 构建并安装 vLLM pip install . --no-build-isolation

设置环境变量
必要的环境变量配置：

set DISTUTILS_USE_SDK=1 set VLLM_TARGET_DEVICE=cuda set MAX_JOBS=10 # 并行编译的 CPU 线程数，可根据实际情况调整

（可选）如需启用 cuDNN、cuSPARSELt 等功能，需额外设置对应路径：

# 启用 cuDNN（替换为实际安装路径） set USE_CUDNN=1 set CUDNN_LIBRARY_PATH=PATH_TO_CUDNN_INSTALL_DIR\lib\CUDNN_CUDA_VERSION\x64 set CUDNN_INCLUDE_PATH=PATH_TO_CUDNN_INSTALL_DIR\include\CUDNN_CUDA_VERSION # 启用 cuSPARSELt（替换为实际安装路径） set USE_CUSPARSELT=1 set CUSPARSELT_INCLUDE_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\include set CUSPARSELT_LIBRARY_PATH=PATH_TO_CUSPARSELT_INSTALL_DIR\lib

配置 Visual Studio 编译环境
运行 Visual Studio 的 vcvarsall.bat 以初始化 x64 编译环境（替换为你的 VS 安装路径）：

VISUAL_STUDIO_INSTALL_PATH\VC\Auxiliary\Build\vcvarsall.bat x64

打开命令行并克隆仓库

# 克隆 vllm-windows 仓库（指定分支） git clone --single-branch --branch vllm-for-windows https://github.com/SystemPanic/vllm-windows.git cd vllm-windows

注意事项

从源码构建时，Flash Attention v3 默认在 Windows 上禁用（因编译时间过长），如需强制启用，可设置环境变量 set VLLM_FORCE_FA3_WINDOWS_BUILD=1。
确保所有路径中的占位符（如 PATH_TO_CUDNN_INSTALL_DIR）替换为实际安装路径。
若遇到编译或安装错误，建议检查依赖版本兼容性，并参考官方仓库的 issue 或文档进一步排查。

TRAE vs Qoder vs Cursor vs GitHub Copilot：谁才是真正的“AI 工程师”？

引言：工具选择 = 成本 + 效率 + 风险的综合权衡 2026 年，AI 编程工具已从“玩具”走向“生产主力”。但面对 TRAE、Qoder、Cursor、GitHub Copilot 等选项，开发者不仅要问： * 它能写 Rust 吗？支持中文需求吗？ * 更要问：一个月多少钱？团队用得起吗？代码安全有保障吗？本文将从五大核心维度深度剖析四大主流 AI IDE： 1. 核心理念与自主性 2. 多语言与跨生态支持能力 3. 工程化与交付闭环能力 4. 中文本地化与业务适配 5. 收费模式、定价策略与企业成本帮你做出技术可行、经济合理、风险可控的决策。一、核心理念：

Cogito-v1-preview-llama-3B应用场景：工业设备故障日志分析与维修建议生成

Cogito-v1-preview-llama-3B应用场景：工业设备故障日志分析与维修建议生成 1. 工业设备运维的痛点与机遇在工业制造领域，设备故障是每个工厂管理者最头疼的问题。一台关键设备的突然停机，可能导致整条生产线瘫痪，每小时损失数以万计。传统的故障排查方式往往依赖经验丰富的老师傅，通过查看设备日志、听声音、摸温度来判断问题所在。但这种传统方式面临三大挑战：人才断层（老师傅越来越少）、响应延迟（排查需要时间）、经验局限（个人经验有限）。现在，借助Cogito-v1-preview-llama-3B这样的智能模型，我们可以让设备运维进入智能化时代。 Cogito v1预览版是Deep Cogito推出的混合推理模型，在标准基准测试中超越了同等规模的其他开源模型。它不仅能直接回答问题，还能进行自我反思和推理，特别适合处理工业设备故障日志这类复杂的技术问题。 2. Cogito模型的独特优势 2.1 混合推理能力 Cogito模型最大的特点是混合推理能力。当面对设备故障日志时，它不会简单地匹配关键词，而是会： * 先理解：分析日志中的技术术语和上下文关系

GitHub 热榜项目 - 日榜(2026-1-10)

GitHub 热榜项目 - 日榜(2026-1-10) 生成于：2026-1-10 统计摘要共发现热门项目： 12 个榜单类型：日榜本期热点趋势总结本期GitHub热榜显示AI智能体开发工具正席卷开发者社区，Claude Code、opencode等项目通过自然语言交互极大提升编码效率，Chrome DevTools MCP和UI-TARS-desktop则推动多模态智能体与开发工具深度集成，同时TailwindCSS持续领跑前端工具链，NetBird提供现代化安全网络方案，反映出开发者正积极采用AI助手优化工作流，并重点关注智能体工具链集成、实用型开发工具及基础设施安全三大趋势，这些高质量开源方案切实提升了开发体验与工程效率。 1. ChromeDevTools/chrome-devtools-mcp * 🏷️ 项目名称：ChromeDevTools/chrome-devtools-mcp * 🔗 项目地址： https://github.com/ChromeDevTools/chrome-devtools-mcp * ⭐ 当前 Star 数：

AtomGit首发模型深度评测：多模态能力与场景适配性实战分析

文章目录 * 每日一句正能量 * 前言 * 一、评测背景与方法论 * 1.1 评测动机 * 1.2 评测环境 * 1.3 评测框架 * 二、核心能力深度测试 * 2.1 文本生成质量评测 * 2.2 代码能力实测 * 2.3 逻辑推理能力 * 三、性能表现实测数据 * 3.1 响应延迟测试 * 3.2 长上下文处理能力 * 3.3 输出稳定性 * 四、场景适配性分析 * 4.1 中文场景优化 * 4.2 垂直领域表现 * 4.3 API易用性 * 五、综合评估与优化建议 * 5.