前置环境确认
在部署前需完成以下环境检查,避免后续出现兼容性问题:
- 硬件要求:搭载 Apple Silicon 芯片(M1/M2/M3系列)的 MacBook,内存≥16GB(建议32GB以上)
- 系统版本:macOS 13.0(Ventura)或更高版本
- 软件依赖:已安装 Homebrew 4.0+(用于快速安装工具链)
若未安装 Homebrew,可执行以下命令一键安装:
方案一:Ollama 一键部署(推荐)
Ollama 是专为本地大模型设计的轻量级部署工具,支持一键拉取、运行多种开源大模型,对 Apple Silicon 芯片做了深度优化。
1. 安装 Ollama
执行以下 Homebrew 命令完成安装:
brew install ollama
安装完成后启动 Ollama 服务:
ollama serve
预期输出:服务启动后会显示
Listening on 127.0.0.1:11434表示服务正常运行
2. 拉取并运行大模型
Ollama 内置了模型仓库,可直接拉取主流开源模型,以下是常用模型的部署命令:
- Llama 3 7B(平衡性能与效果的入门选择)
ollama run llama3
- Mistral 7B(轻量化高性能模型)
ollama run mistral
- Qwen 7B(中文优化模型)
ollama run qwen
首次运行会自动下载模型文件,下载速度取决于网络环境,模型文件默认存储在
~/.ollama/models目录
3. 核心避坑点
- 内存不足问题:运行 7B 模型需至少 8GB 可用内存,若内存不足,可通过添加量化参数启动 4-bit 量化版本:
ollama run llama3:7b-q4_0
- 服务端口冲突:若 11434 端口被占用,可通过修改环境变量指定新端口:
OLLAMA_HOST=127.0.0.1:11435 ollama serve
- 模型下载失败:可手动下载模型文件后放置到
~/.ollama/models/blobs目录,再执行ollama create -f Modelfile导入模型
方案二:llama.cpp 手动部署(进阶)
llama.cpp 是纯 C++ 实现的大模型推理框架,极致轻量化,适合对性能有极致要求的场景,可直接运行 GGUF 格式的量化模型。
1. 安装 llama.cpp
克隆官方仓库并编译(Apple Silicon 芯片会自动启用 Metal 加速):
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
make
编译完成后会在根目录生成 可执行文件,验证编译结果:


