llama-cpp-python Windows 部署实战：编译与运行

llama-cpp-python Windows 部署实战：编译与运行 | 极客日志

llama.dll

# CPU 基础版本 pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cpu
# CUDA 加速版本（根据你的 CUDA 版本选择） pip install llama-cpp-python --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu121

# 设置 MinGW 编译环境 $env:CMAKE_GENERATOR = "MinGW Makefiles"
$env:CMAKE_ARGS = "-DCMAKE_C_COMPILER=C:/w64devkit/bin/gcc.exe"
# 启用 OpenBLAS 加速 $env:CMAKE_ARGS += " -DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS"
pip install llama-cpp-python --no-cache-dir

# 在 VS 开发者命令行中执行 set CMAKE_ARGS=-DGGML_CUDA=on pip install llama-cpp-python --no-cache-dir

# 验证编译器是否可用 where gcc where cmake # 检查环境变量 echo %CUDA_PATH% echo %PATH%

# RTX 30 系列显卡 $env:CMAKE_ARGS = "-DGGML_CUDA=on -DCUDA_ARCHITECTURES=86" # RTX 40 系列显卡 $env:CMAKE_ARGS = "-DGGML_CUDA=on -DCUDA_ARCHITECTURES=89"

# 安装服务器组件 pip install "llama-cpp-python[server]" # 启动本地服务 python -m llama_cpp.server --model ./models/7B/llama-model.gguf --host 0.0.0.0 --port 8000

# 启用 GPU 加速（20 层放到 GPU 上运行） python -m llama_cpp.server --model ./models/7B/llama-model.gguf --n_gpu_layers 20 # 增大上下文窗口 python -m llama_cpp.server --model ./models/7B/llama-model.gguf --n_ctx 4096

from llama_cpp import Llama llm = Llama.from_pretrained( repo_id="Qwen/Qwen2-0.5B-Instruct-GGUF", filename="*q8_0.gguf" )

pip install llama-cpp-python==0.2.78

from llama_cpp import Llama llm = Llama( model_path="./models/7B/llama-model.gguf", chat_format="llama-2" ) response = llm.create_chat_completion( messages=[ {"role": "system", "content": "你是一个 helpful 的助手"}, {"role": "user", "content": "介绍一下 llama-cpp-python"} ] ) print(response["choices"][0]["message"]["content"])

from llama_cpp import Llama llm = Llama( model_path="./models/7B/llama-model.gguf", n_ctx=2048, n_gpu_layers=10 ) output = llm.create_completion( prompt="Q: 什么是人工智能？A:", max_tokens=100 )

llama-cpp-python Windows 部署实战：编译与运行

llama-cpp-python Windows 部署实战：编译与运行

痛点直击：Windows 部署的三大难关

核心解决方案：三种部署路径任你选

新手首选：预编译 wheel 一键安装

进阶方案：MinGW 编译路径

专业路线：Visual Studio 完整编译

实战技巧：常见问题快速修复

DLL 缺失问题快速解决

编译错误排查指南

CUDA 配置优化

部署验证与性能调优

快速启动测试服务

性能优化配置

最佳实践与经验分享

模型管理策略

版本控制建议

故障排查清单

进阶应用示例

快速构建聊天机器人

高 level API 使用

更多推荐文章

相关免费在线工具

llama-cpp-python Windows 部署实战：编译与运行

llama-cpp-python Windows 部署实战：编译与运行

痛点直击：Windows 部署的三大难关

核心解决方案：三种部署路径任你选

新手首选：预编译 wheel 一键安装

进阶方案：MinGW 编译路径

专业路线：Visual Studio 完整编译

实战技巧：常见问题快速修复

DLL 缺失问题快速解决

编译错误排查指南

CUDA 配置优化

部署验证与性能调优

快速启动测试服务

性能优化配置

最佳实践与经验分享

模型管理策略

版本控制建议

故障排查清单

进阶应用示例

快速构建聊天机器人

高 level API 使用

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具