Python + Ollama 本地跑大模型:零成本打造私有 AI 助手

Python + Ollama 本地跑大模型:零成本打造私有 AI 助手
零 API 费用、零数据泄露风险、完全离线可用。本文带你从安装到实战,30 分钟跑起一个本地 AI 助手。

一、为什么要在本地跑大模型?

对比维度云端 API(ChatGPT / Claude)本地模型(Ollama)
费用按量付费,$20/月起完全免费
数据隐私数据上传到云端数据留在本地
网络依赖必须联网离线可用
模型选择固定自由切换开源模型
硬件要求需要一定配置

38%27%18%12%5%选择本地大模型的理由(2026年开发者调查)数据隐私与安全零成本长期使用离线可用可自由定制微调其他


二、Ollama 是什么?

Ollama 是一个开源的本地大模型运行框架,核心特点:

  • 一键拉取模型:类似 docker pull 的体验
  • 自动适配硬件:根据你的显存/内存自动量化
  • 兼容 OpenAI API 格式:现有代码几乎不用改
  • 跨平台:Windows / macOS / Linux 都支持

用户提问

Python 代码

Ollama 本地服务

Qwen3 / Llama4 / DeepSeek


三、环境准备

3.1 硬件要求

模型规模最低内存/显存推荐配置
1.5B~3B(轻量)4 GB8 GB 内存即可
7B~8B(主流)8 GB16 GB 内存或 8 GB 显存
14B~32B(进阶)16 GB32 GB 内存或 16 GB 显存
70B+(旗舰)48 GB专业显卡 / 服务器
没有独立显卡也能跑!Ollama 支持 纯 CPU 推理,只是速度慢一些。

3.2 安装 Ollama

# macOS / Linux(一行搞定)curl-fsSL https://ollama.com/install.sh |sh# Windows:前往 https://ollama.com/download 下载安装包

验证安装:

ollama --version# 输出:ollama version is 0.6.x

3.3 拉取模型

# 推荐:Qwen3 8B(中文能力最强的小模型之一) ollama pull qwen3:8b # 备选:Llama 4 Scout 17B(Meta 最新开源模型) ollama pull llama4:scout17b # 轻量选择:Qwen3 4B(4GB 内存就能跑) ollama pull qwen3:4b # 查看已下载的模型 ollama list 

3.4 安装 Python 依赖

pip install ollama 

四、快速上手:5 行代码跑起来

4.1 最简对话

import ollama # 发送一条消息,获取回复 response = ollama.chat( model="qwen3:8b", messages=[{"role":"user","content":"用 Python 写一个快速排序算法"}])print(response["message"]["content"])

4.2 流式输出(打字机效果)

import ollama # stream=True 开启流式输出,体验更丝滑 stream = ollama.chat( model="qwen3:8b", messages=[{"role":"user","content":"解释一下 Python 的装饰器"}], stream=True)for chunk in stream:print(chunk["message"]["content"], end="", flush=True)

4.3 多轮对话(保持上下文)

import ollama # 维护对话历史 messages =[]defchat(user_input:str)->str: messages.append({"role":"user","content": user_input}) response = ollama.chat(model="qwen3:8b", messages=messages) assistant_msg = response["message"]["content"] messages.append({"role":"assistant","content": assistant_msg})return assistant_msg # 多轮对话print(chat("你好,我正在学 Python"))print("---")print(chat("刚才我说我在学什么来着?"))# 它能记住上下文

五、实战项目:打造命令行 AI 助手

下面是一个功能完整的本地 AI 助手,支持多轮对话、Markdown 渲染、历史记录。

5.1 项目结构

local-ai-assistant/ ├── assistant.py # 主程序 ├── config.py # 配置文件 └── chat_history.json # 对话历史(自动生成) 

5.2 配置文件 config.py

# config.py MODEL_NAME ="qwen3:8b"# 使用的模型 SYSTEM_PROMPT ="""你是一个专业的 AI 编程助手。 你擅长 Python、数据分析、自动化办公。 回答要简洁实用,代码要可以直接运行。""" MAX_HISTORY =20# 最多保留的对话轮数

5.3 主程序 assistant.py

# assistant.pyimport json import ollama from datetime import datetime from config import MODEL_NAME, SYSTEM_PROMPT, MAX_HISTORY defload_history(filepath="chat_history.json"):"""加载对话历史"""try:withopen(filepath,"r", encoding="utf-8")as f:return json.load(f)except FileNotFoundError:return[]defsave_history(messages, filepath="chat_history.json"):"""保存对话历史"""withopen(filepath,"w", encoding="utf-8")as f: json.dump(messages, f, ensure_ascii=False, indent=2)defchat_stream(user_input:str, messages:list)->str:"""流式对话""" messages.append({"role":"user","content": user_input})print(f"\n\033[92m🤖 AI:\033[0m ", end="", flush=True) full_response ="" stream = ollama.chat(model=MODEL_NAME, messages=messages, stream=True)for chunk in stream: content = chunk["message"]["content"]print(content, end="", flush=True) full_response += content print("\n") messages.append({"role":"assistant","content": full_response})# 限制历史长度iflen(messages)> MAX_HISTORY *2+1: messages =[messages[0]]+ messages[-(MAX_HISTORY *2):]return full_response defmain():print("="*50)print(f" 本地 AI 助手 | 模型: {MODEL_NAME}")print(" 输入 /clear 清空历史 | /quit 退出")print("="*50)# 初始化对话 messages = load_history()ifnot messages: messages =[{"role":"system","content": SYSTEM_PROMPT}]whileTrue: user_input =input("\n\033[94m👤 你:\033[0m ").strip()ifnot user_input:continueif user_input =="/quit": save_history(messages)print("👋 再见!对话已保存。")breakif user_input =="/clear": messages =[{"role":"system","content": SYSTEM_PROMPT}] save_history(messages)print("🗑️ 对话历史已清空。")continue chat_stream(user_input, messages) save_history(messages)if __name__ =="__main__": main()

5.4 运行效果

python assistant.py 
================================================== 本地 AI 助手 | 模型: qwen3:8b 输入 /clear 清空历史 | /quit 退出 ================================================== 👤 你: 帮我写一个 Python 脚本,监控某个文件夹的变化 🤖 AI: 好的,使用 `watchdog` 库可以轻松实现文件夹监控... (此处输出完整代码) 

六、进阶玩法

6.1 让 AI 调用本地函数(Function Calling)

import ollama import json # 定义工具函数defget_weather(city:str)->str:"""模拟获取天气(可替换为真实 API)""" weather_data ={"北京":"晴天 22°C","上海":"多云 18°C","深圳":"大雨 28°C"}return weather_data.get(city,"未查询到该城市天气")defcalculate(expression:str)->str:"""安全计算数学表达式"""try: allowed =set("0123456789+-*/.() ")ifall(c in allowed for c in expression):returnstr(eval(expression))return"不安全的表达式"except Exception as e:returnf"计算错误: {e}"# 注册工具 tools =[{"type":"function","function":{"name":"get_weather","description":"获取指定城市的天气信息","parameters":{"type":"object","properties":{"city":{"type":"string","description":"城市名称"}},"required":["city"]}}},{"type":"function","function":{"name":"calculate","description":"计算数学表达式","parameters":{"type":"object","properties":{"expression":{"type":"string","description":"数学表达式"}},"required":["expression"]}}}]# 工具映射 tool_map ={"get_weather": get_weather,"calculate": calculate }# 对话 messages =[{"role":"user","content":"北京天气怎么样?顺便帮我算一下 25*36+128"}] response = ollama.chat(model="qwen3:8b", messages=messages, tools=tools)# 处理工具调用if response["message"].get("tool_calls"):for tool_call in response["message"]["tool_calls"]: func_name = tool_call["function"]["name"] func_args = tool_call["function"]["arguments"]print(f"🔧 调用工具: {func_name}({func_args})") result = tool_map[func_name](**func_args)print(f" 结果: {result}")

6.2 兼容 OpenAI SDK

# 如果你已有使用 OpenAI SDK 的代码,只需改一行from openai import OpenAI client = OpenAI( base_url="http://localhost:11434/v1",# 指向 Ollama api_key="ollama"# 随意填,不影响) response = client.chat.completions.create( model="qwen3:8b", messages=[{"role":"user","content":"Hello, who are you?"}])print(response.choices[0].message.content)
这意味着:所有基于 OpenAI API 的应用(LangChain、Dify、Cursor 等)都可以无缝切换到本地模型!

七、模型选择指南

32%25%20%13%10%2026年 Ollama 最受欢迎模型占比Qwen3 8B(中文最强)Llama 4 Scout(综合最佳)DeepSeek R2(推理之王)Gemma 4 27B(性价比高)Mistral Small(轻量首选)

模型推荐表

使用场景推荐模型大小命令
中文对话 / 写作Qwen3 8B~5 GBollama pull qwen3:8b
英文编程Llama 4 Scout~10 GBollama pull llama4:scout17b
逻辑推理 / 数学DeepSeek R2 8B~5 GBollama pull deepseek-r2:8b
低配机器Qwen3 1.7B~1 GBollama pull qwen3:1.7b
代码专用Qwen3-Coder 7B~4 GBollama pull qwen3-coder:7b

八、常见问题

Q:没有显卡能跑吗?
A:能。Ollama 支持 CPU 推理,8B 模型在 16GB 内存的机器上完全可以跑,速度约 5-10 token/s。

Q:中文效果好还是英文效果好?
A:推荐 Qwen3 系列,它的中文能力是目前开源模型里最强的,远超同级别的 Llama。

Q:和 ChatGPT 比差多少?
A:8B 级别的模型大约相当于 GPT-3.5 的水平,日常问答够用,复杂推理和长文本还有差距。如果硬件允许,跑 32B 或 70B 的模型会更接近 GPT-4 级别。

Q:商用免费吗?
A:大部分模型(Qwen、Llama、Gemma)允许商用,但建议查看各模型的具体 License。


总结

Ollama 本地 AI 的核心优势: ├── 零成本 —— 不花一分钱 API 费用 ├── 零风险 —— 数据永远不会离开你的电脑 ├── 零门槛 —— pip install + ollama pull,5 分钟上手 └── 零妥协 —— 兼容 OpenAI API,现有生态无缝切换 

现在就打开终端,花 5 分钟跑起你的第一个本地 AI 助手吧。


Read more

黄仁勋力荐:OpenClaw不止是下一个ChatGPT,更是AI“动手时代”的破局者

黄仁勋力荐:OpenClaw不止是下一个ChatGPT,更是AI“动手时代”的破局者

在2026年GTC大会上,英伟达创始人兼CEO黄仁勋抛出了一个振聋发聩的判断:“OpenClaw绝对是下一个ChatGPT”。 这一评价并非夸大其词,而是精准点出了AI产业的核心演进方向——从“被动回答”的语言交互,转向“主动行动”的任务执行。ChatGPT开启了大语言模型(LLM)的普及时代,让AI具备了理解和生成人类语言的能力,但它始终停留在“军师”的角色,只能提供方案建议;而OpenClaw的出现,彻底打破了这一局限,将AI变成了能动手干活的“数字员工”,完成了AI从“认知”到“执行”的关键跃迁,成为连接AI能力与现实场景的核心桥梁。 下面我将从技术本质出发,拆解OpenClaw的核心架构、关键技术实现,结合代码示例、架构图与流程图,深入解析其如何实现“行动型AI”的突破,以及为何能被黄仁勋寄予厚望,成为AI产业的下一个里程碑。 一、认知跃迁:从“回答型AI”到“行动型AI”的本质区别 要理解OpenClaw的价值,首先需要明确它与ChatGPT这类“回答型AI”的核心差异。

云开发 Copilot ——让开发变得更简单

云开发 Copilot ——让开发变得更简单

声明:本篇博客为云开发 Copilot体验文章,非广告 目录 前言: 游客体验 云开发 Copilot实战: 一、图片生成需求 二、云开发 Copilot实现需求 三、AI生成低代码页面 Copilot 的亮点功能 使用场景 云开发 Copilot开发的前景展望 前言: 在云开发AI+中,腾讯云提供一系列与 AI 相关的功能,如大模型接入、 Agent 等,帮助开发者为自己的小程序、web 或者应用快速接入 AI 能力,同时也提供了云开发 Copilot,来加速用户的开发,帮助用户更快构建自己的应用。下面博主将会为大家实战使用云开发 Copilot来助力开发。 云开发 Copilot是云开发推出的一款 AI 开发辅助工具,可以帮助用户快速生成多种类型的应用功能,包括低代码应用、页面、组件、数据模型、

GHCJS测试套件使用指南:确保代码质量的5个关键步骤

GHCJS测试套件使用指南:确保代码质量的5个关键步骤 【免费下载链接】ghcjsHaskell to JavaScript compiler, based on GHC 项目地址: https://gitcode.com/gh_mirrors/gh/ghcjs GHCJS是将Haskell代码编译为JavaScript的编译器,而GHCJS测试套件则是确保编译器质量和稳定性的核心工具。对于使用GHCJS的开发者来说,掌握测试套件的使用方法至关重要,它能帮助您发现潜在问题、验证功能正确性,并确保您的Haskell到JavaScript转换过程可靠无误。本文将为您详细介绍使用GHCJS测试套件的5个关键步骤,帮助您建立完整的代码质量保障体系。 🚀 1. 了解GHCJS测试套件的基本结构 GHCJS测试套件位于项目的test/目录下,包含多个测试类别和模块。主要的测试文件包括: * 测试运行器:TestRunner.hs - 主要的测试执行入口 * 测试配置:tests.yaml - 测试配置和参数设置 * 基准测试配置:benchmarks.yaml - 性能基准测试

如何快速使用OpenAI Whisper:语音转文本完整使用指南

如何快速使用OpenAI Whisper:语音转文本完整使用指南 【免费下载链接】whisper-base.en 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-base.en 想要将语音内容快速转换为可编辑的文字吗?OpenAI Whisper作为当前最先进的语音识别模型,能够高质量完成语音转文本任务,支持多语言识别,特别适合个人用户和中小团队使用。这款开源免费的语音转文本工具让每个人都能享受专业的语音转录服务,无需复杂的配置即可开始使用。 语音转文本工具的核心价值 ✨ 完全免费开源:Whisper模型完全开源,无需付费订阅,让语音识别技术真正普及到每个人手中。 多场景实用功能: * 会议记录自动化:自动生成完整的会议纪要 * 学习效率提升:将讲座音频快速转为学习笔记 * 内容创作助手:为播客、视频生成准确字幕 * 个人语音管理:将语音备忘录转换为可搜索文字 技术优势亮点: * 基于680,000小时多语言数据训练 * 零样本学习能力,无需额外训练 * 支持99种语言自动识别 * 准确率行