本地大模型部署指南：Ollama 安装与 Python 调用

如何在本地部署 Ollama 大模型运行环境，并通过 Python 脚本进行调用。内容包括 Ollama 的安装步骤、常用命令速查、利用国内魔搭社区加速模型下载的方法、服务端口配置以及基于 OpenAI 库的 Python 调用示例。此外还涵盖了不同部署工具的对比、显存占用计算公式及常见问题解答，帮助用户快速上手本地大模型开发。

墨染流年发布于 2026/3/23更新于 2026/4/1710K 浏览

本地大模型部署指南：Ollama 安装与 Python 调用

核心摘要: 工具：Ollama。目标：在本地电脑运行大模型并提供 API 给 Python 调用。方案：使用国内 ModelScope 替代 HuggingFace 实现极速下载。包含修改端口、显存计算公式及概念科普。

01. Ollama 介绍

官网地址：https://ollama.com/

Ollama 是目前最火的本地大模型部署工具。简单来说，它能帮用户快速拉取模型文件，让模型在本地直接运行并进行对话。同时，它还能把模型打包成一个标准的接口，通过端口开放给用户写的 Python 脚本调用。

对于用户来说，它就是在大模型时代装在电脑里的'运行环境'，必不可少。

02. 安装 Ollama

安装：打开下载好的安装包，选择一个合适的位置安装即可。

测试运行：按下 Win+R 打开运行窗口，输入 cmd 打开命令提示符。输入命令 ollama --version。如果看到版本号，就说明 Ollama 已经安装完毕，正在运行了。

run_cmd_command

check_ollama_version

验证：安装完毕后，开始菜单里会出现一个羊驼图标。

ollama_icon

选择版本：点击 Download 按钮，根据操作系统（Windows/Mac/Linux）下载。

download_ollama_via_platform

下载：登录官网 https://ollama.com/ 。

ollama_site

场景	命令示例	备注
第一次下模型	`ollama run qwen3:7b`	会自动先 pull 再运行，一步到位
只下载不运行	`ollama pull llama3:8b`	适合提前囤模型
国内加速	`ollama pull modelscope.cn/Qwen/Qwen3-7B-GGUF`	推荐！下文会细讲
查看本地库存	`ollama list` 或 `ollama ls`	大小/ID/修改时间一目了然
删除省空间	`ollama rm llama2:latest`	支持通配符，可写 `llama2:*`
给模型改短名	`ollama cp qwen3:7b q7`	后面直接 `ollama run q7` 方便调用
查模型详情	`ollama show q7`	参数量、量化层、标签全列出

本地大模型部署指南：Ollama 安装与 Python 调用

本地大模型部署指南：Ollama 安装与 Python 调用

01. Ollama 介绍

02. 安装 Ollama

更多推荐文章

相关免费在线工具

03. Ollama 常用命令速查

04. 下载模型（解决网速慢的问题）

05. 运行模型

06. 更改服务端口（进阶）

Windows 环境

Linux 环境

07. 在 Python 脚本中使用模型

08. 常见问题 (Q&A)

本地大模型部署指南：Ollama 安装与 Python 调用

本地大模型部署指南：Ollama 安装与 Python 调用

01. Ollama 介绍

02. 安装 Ollama

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

03. Ollama 常用命令速查

04. 下载模型（解决网速慢的问题）

05. 运行模型

06. 更改服务端口（进阶）

Windows 环境

Linux 环境

07. 在 Python 脚本中使用模型

08. 常见问题 (Q&A)