Python 调用 Ollama 本地大模型 API 完全指南

Ne0inhk

16 Mar 2026 — 4 min read

Python 调用 Ollama 本地大模型 API 完全指南

Ollama 是一个开源工具，允许开发者在本地轻松运行 Llama、Mistral、Gemma 等主流大语言模型（LLM）。它不仅提供命令行交互，还内置了 HTTP API 服务，使得我们可以通过 Python 等编程语言远程调用本地模型，实现私有化、低延迟、无网络依赖的 AI 应用开发。

本文将手把手教你如何在 Python 中通过 HTTP 请求调用 Ollama 的 API，完成文本生成、对话交互等任务。

一、前提准备

1. 安装并启动 Ollama

官网下载安装：https://ollama.com/
首次运行会自动下载模型（需联网），之后即可离线使用。

安装后，在终端运行：

ollama run llama3 # 或 mistral、gemma、qwen 等

✅ 重要：Ollama 默认启动一个本地 HTTP 服务（http://localhost:11434），即使你只运行 ollama run，API 也会在后台可用。

二、Ollama API 简介

Ollama 提供了简洁的 RESTful API，核心接口为：

POST /api/generate：用于单轮文本生成（非对话）
POST /api/chat：用于多轮对话（推荐用于聊天场景）

本文以 /api/chat 为主，更贴近实际应用。

三、Python 调用示例（使用 requests）

首先安装依赖（如未安装）：

pip install requests

示例 1：基础对话（单轮）

import requests import json def chat_with_ollama(prompt: str, model: str = "llama3") -> str: url = "http://localhost:11434/api/chat" payload = { "model": model, "messages": [{"role": "user", "content": prompt}], "stream": False # 关闭流式响应，获取完整结果 } response = requests.post(url, json=payload) if response.status_code == 200: result = response.json() return result["message"]["content"] else: raise Exception(f"请求失败: {response.text}") # 使用示例 answer = chat_with_ollama("你好！你能介绍一下自己吗？") print(answer)

示例 2：多轮对话（带上下文）

def multi_turn_chat(): messages = [] model = "mistral" # 可替换为你本地已安装的模型 while True: user_input = input("你: ") if user_input.lower() in ["退出", "quit", "exit"]: break messages.append({"role": "user", "content": user_input}) resp = requests.post( "http://localhost:11434/api/chat", json={ "model": model, "messages": messages, "stream": False } ) if resp.ok: reply = resp.json()["message"]["content"] print(f"AI: {reply}") messages.append({"role": "assistant", "content": reply}) else: print("出错了:", resp.text) break # 启动对话 multi_turn_chat()

四、关键参数说明

参数	说明
`model`	模型名称，必须是你本地已通过 `ollama pull` 或 `run` 下载的（如 `llama3`, `qwen:7b`, `gemma:2b`）
`messages`	对话历史，格式为 `[{"role": "user/assistant", "content": "..."}]`
`stream`	是否启用流式输出。设为 `True` 时需逐块解析响应（适合 Web 实时展示），`False` 则返回完整结果
`options`	可选，用于设置 temperature、max_tokens 等（见下文）

添加生成参数（如温度、最大长度）：

payload = { "model": "llama3", "messages": [{"role": "user", "content": "写一首诗"}], "stream": False, "options": { "temperature": 0.7, "num_predict": 100, # 最大生成 token 数 "top_p": 0.9 } }

五、常见问题排查

❌ 问题 1：`Connection refused` 或无法连接

原因：Ollama 服务未运行
解决：确保终端中已运行 ollama serve 或至少执行过一次 ollama run xxx

❌ 问题 2：`model not found`

原因：指定的模型未下载
解决：先在终端执行 ollama pull llama3（替换为你想用的模型）

❌ 问题 3：响应慢或卡住

尝试关闭 stream（设为 False）
检查模型是否过大（如 70B 模型需高性能 GPU）

六、进阶：流式响应（Stream）

若需实时输出（如打字机效果），可启用流式模式：

def stream_chat(prompt: str, model: str = "llama3"): url = "http://localhost:11434/api/chat" payload = { "model": model, "messages": [{"role": "user", "body": prompt}], "stream": True } with requests.post(url, json=payload, stream=True) as r: for line in r.iter_lines(): if line: chunk = json.loads(line) if "message" in chunk: print(chunk["message"]["content"],, flush=True) print() # 换行

⚠️ 注意：流式响应返回的是 JSON Lines（每行一个 JSON 对象），需逐行解析。

七、总结

通过 Ollama 的 HTTP API，Python 开发者可以：

在本地安全、私有地调用大模型；
构建离线 AI 应用（如智能客服、文档摘要、代码助手）；
无缝集成到 Flask/FastAPI/Web 应用中。

核心优势：
✅ 无需联网
✅ 支持多种开源模型
✅ API 简洁易用
✅ 完全免费 & 开源

📌 提示：Ollama 还支持自定义 Modelfile 微调提示词，进一步提升模型表现。

现在，你已经掌握了在 Python 中调用 Ollama 的全部基础知识。快去试试用本地 LLM 构建你的第一个 AI 应用吧！

43-dify案例分享-MCP-Server让工作流秒变第三方可调用服务

1.前言之前我们为大家介绍过MCP SSE插件，它能够支持MCP-server在Dify平台上的调用，从而帮助Dify与第三方平台提供的MCP-server进行无缝对接。有些小伙伴提出了疑问：既然Dify可以通过MCP SSE插件调用其他平台的MCP-server，那么Dify的工作流或Chatflow是否也能发布为MCP-server，供其他支持MCP client的工具使用呢？今天，我们将为大家介绍一款Dify插件——mcp-server，它能够实现这一功能，即将Dify的工作流或Chatflow发布为MCP-server，供其他第三方工具调用。插件名字叫做MCP-server，我们在dify插件市场可以找到这个工具 Mcp-server 是一个由 Dify 社区贡献的 Extension 类型插件。安装后，你可以把任何 Dify 应用转变成符合 MCP 标准的 Server Endpoint，供外部 MCP 客户端直接访问。它的主要功能包括： * **暴露为 MCP 工具：**将 Dify 应用抽象为单一 MCP 工具，供外部 MCP 客户端（如

【MCP】详细了解MCP协议：和function call的区别何在？如何使用MCP？

本文介绍了MCP大模型上下文协议的的概念，并对比了MCP协议和function call的区别，同时用python sdk为例介绍了mcp的使用方式。 1. 什么是MCP？官网：https://modelcontextprotocol.io/introduction 2025年，Anthropic提出了MCP协议。MCP全称为Model Context Protocol，翻译过来是大模型上下文协议。这个协议的主要为AI大模型和外部工具（比如让AI去查询信息，或者让AI操作本地文件）之间的交互提供了一个统一的处理协议。我们常用的USB TypeC接口（USB-C）统一了USB接口的样式，MCP协议就好比AI大模型中的USB-C，统一了大模型与工具的对接方式。 MCP协议采用了C/S架构，也就是服务端、客户端架构，能支持在客户端设备上调用远程Server提供的服务，同时也支持stdio流式传输模式，也就是在客户端本地启动mcp服务端。只需要在配置文件中新增MCP服务端，就能用上这个MCP服务器提供的各种工具，大大提高了大模型使用外部工具的便捷性。 MCP是开源协议，能让所有A

【大模型系列篇】大模型基建工程：基于 FastAPI 自动构建 SSE MCP 服务器

今天我们将使用FastAPI来构建 MCP 服务器，Anthropic 推出的这个MCP 协议，目的是让 AI 代理和你的应用程序之间的对话变得更顺畅、更清晰。FastAPI 基于 Starlette 和 Uvicorn，采用异步编程模型，可轻松处理高并发请求，尤其适合 MCP 场景下大模型与外部系统的实时交互需求，其性能接近 Node.js 和 Go，在数据库查询、文件操作等 I/O 密集型任务中表现卓越。开始今天的正题前，我们来回顾下相关的知识内容：《高性能Python Web服务部署架构解析》、《使用Python开发MCP Server及Inspector工具调试》、《构建智能体MCP客户端：完成大模型与MCP服务端能力集成与最小闭环验证》 FastAPI基础知识安装依赖 pip install uvicorn, fastapi FastAPI服务代码示例 from fastapi import FastAPI app

超详细图文教程：用vscode+copilot(代理模式)便捷使用mcp+一个范例：用自然语言进行3d建模

在vscode使用claude mcp吧！在vscode更新到最新版本（注意，这是前提）后，内置的copilot可以使用mcp了！！！关于mcp（Model Context Protocol 模型上下文协议），可以参考我的上一篇文章： MCP个人理解+示例+集成管理+在python中调用示例，给AI大模型装上双手-ZEEKLOG博客以下是使用教程： 1.点击左下角的齿轮状设置按钮，点击设置 2.在输入面板输入chat.agent.enabled，勾上勾选框 3.点击Ctrl+shift+P，输入reload，点击重新加载窗口，刷新窗口 4.打开copilot后，在右下角将模式改为代理即可。 5.点击工具按钮，开始安装mcp 先去github找到自己想要添加的mcp服务，以blender MCP为例，打开https://github.com/ahujasid/blender-mcp，可以在readme文档里看到详细的安装过程。可以看到，