Jetson Orin NX 部署 Ollama 与 Llama 3.2 | 极客日志

PythonAI算法

Jetson Orin NX 部署 Ollama 与 Llama 3.2

介绍在 NVIDIA Jetson Orin NX（JetPack 5）上部署 Ollama 并运行 Llama 3.2 模型的完整流程。内容包括环境检查、Ollama 专用版安装、GPU 验证、模型拉取与推理、HTTP API 调用示例以及性能优化和 systemd 服务配置。通过合理选择量化模型和优化功耗模式，可实现边缘端的高效本地大模型推理。

微码行者发布于 2026/4/6更新于 2026/4/1810 浏览

Jetson Orin NX 上部署 Ollama + Llama 3.2

一、环境准备与系统要求

1.1 硬件要求

组件	要求	推荐配置
设备型号

模型名称	量化版本	模型大小	推荐内存
Llama 3.2 1B	Q4_0	~1GB	4GB+
Llama 3.2 3B	Q4_0	~2GB	8GB+
Llama 3.2 3B	Q8_0	~3.5GB	12GB+

# 查看 L4T 版本
cat /etc/nv_tegra_release
# 查看系统信息
uname -a
lsb_release -a
# 查看 JetPack 版本（如果已安装 SDK Manager）
apt list --installed | grep nvidia-jetpack

# R35 (release), REVISION: 3.1, GCID: 32827747, BOARD: t186ref, EABI: aarch64 Ubuntu 20.04.6 LTS

# 实时监控 GPU 状态
sudo tegrastats
# 查看 GPU 信息
sudo jetson_clocks --show

# 查看磁盘空间
df -h
# 查看块设备
lsblk
# 如果有 NVMe，建议使用 ls /dev/nvme*

# 创建安装目录结构
mkdir -p ~/apps/ollama/{bin,lib,tmp}
# 创建模型存储目录（建议使用 NVMe）
sudo mkdir -p /data/ollama/models
sudo chown $USER:$USER /data/ollama/models
# 或使用用户目录（空间充足时）
mkdir -p ~/.ollama/models

# 设置代理（如需要）
export HTTP_PROXY=http://127.0.0.1:你的端口
export HTTPS_PROXY=http://127.0.0.1:你的端口
# 获取最新版本号
TAG=$(curl -fsSL https://api.github.com/repos/ollama/ollama/releases/latest | grep -m1 '"tag_name"' | cut -d'"' -f4)
echo "Latest version: $TAG"
# 下载 JetPack 5 专用版本
curl -fL "https://github.com/ollama/ollama/releases/download/${TAG}/ollama-linux-arm64-jetpack5.tgz" \
    -o ~/apps/ollama/tmp/ollama-jetpack5.tgz

# 解压文件
cd ~/apps/ollama/tmp
tar -xzf ollama-jetpack5.tgz
# 安装二进制文件
mv bin/ollama ~/apps/ollama/bin/
chmod +x ~/apps/ollama/bin/ollama
# 安装运行库（重要！）
cp -r lib/* ~/apps/ollama/lib/
# 验证安装
~/apps/ollama/bin/ollama --version

ollama version 0.4.8

# 当前会话生效
export PATH="$HOME/apps/ollama/bin:$PATH"
export OLLAMA_MODELS="/data/ollama/models"
export OLLAMA_HOST="127.0.0.1:11434"
# 可选：限制并发和上下文长度（边缘设备推荐）
export OLLAMA_NUM_PARALLEL=1
export OLLAMA_CONTEXT_LENGTH=2048

# 添加到 .bashrc
cat >> ~/.bashrc <<'EOF'
# Ollama Configuration
export PATH="$HOME/apps/ollama/bin:$PATH"
export OLLAMA_MODELS="/data/ollama/models"
export OLLAMA_HOST="127.0.0.1:11434"
export OLLAMA_NUM_PARALLEL=1
export OLLAMA_CONTEXT_LENGTH=2048
EOF
# 立即生效
source ~/.bashrc

# 启动 Ollama 服务
ollama serve

time=2024-12-15T10:00:00.000+08:00 level=INFO source=gpu.go:199 msg="detected GPU" library=cuda compute=8.7 driver=11.4 name="NVIDIA Orin" total="15.7 GiB" available="14.2 GiB"

# 实时监控 GPU 使用情况
sudo tegrastats
# 查看显存使用
free -h

# 保持 ollama serve 运行，新开终端
# 拉取 1B 模型（推荐首选）
ollama pull llama3.2:1b-instruct-q4_0
# 查看下载进度和信息
ollama list

pulling manifest
pulling 1890919b6184... 100% ████████████████ 976 MB
pulling a70ff7e570d5... 100% ████████████████ 342 B
pulling 5ad0a1049874... 100% ████████████████ 110 B
verifying sha256 digest
writing manifest
success

# 交互式对话
ollama run llama3.2:1b-instruct-q4_0
# 示例对话
>>> 介绍一下 NVIDIA Jetson 平台

# 简单性能测试
time ollama run llama3.2:1b-instruct-q4_0 "写一个 Python 快速排序函数"
# 批量测试
echo "What is AI?" | ollama run llama3.2:1b-instruct-q4_0

# 非流式响应
curl -X POST http://127.0.0.1:11434/api/generate \
    -H 'Content-Type: application/json' \
    -d '{ "model": "llama3.2:1b-instruct-q4_0", "prompt": "解释什么是边缘计算", "stream": false, "options": { "temperature": 0.7, "top_p": 0.9, "max_tokens": 200 } }' | jq

# 多轮对话示例
curl -X POST http://127.0.0.1:11434/api/chat \
    -H 'Content-Type: application/json' \
    -d '{ "model": "llama3.2:1b-instruct-q4_0", "messages": [ {"role": "system", "content": "你是一个专业的机器人导航助手"}, {"role": "user", "content": "如何实现语义地标导航？"} ], "stream": false, "options": { "temperature": 0.5 } }' | jq

# Python 示例：流式响应
import requests
import json

url = 'http://127.0.0.1:11434/api/generate'
data = {
    'model': 'llama3.2:1b-instruct-q4_0',
    'prompt': '写一首关于机器人的诗',
    'stream': True
}
response = requests.post(url, json=data, stream=True)
for line in response.iter_lines():
    if line:
        chunk = json.loads(line)
        print(chunk['response'], end='', flush=True)

# 查看当前功耗模式
sudo nvpmodel -q
# 切换到最高性能模式（MODE_15W_6CORE）
sudo nvpmodel -m 0
# 锁定最高频率
sudo jetson_clocks
# 查看当前频率设置
sudo jetson_clocks --show

# 限制上下文长度（减少内存占用）
export OLLAMA_CONTEXT_LENGTH=1024
# 限制并发请求
export OLLAMA_NUM_PARALLEL=1
# 设置模型保持时间
export OLLAMA_KEEP_ALIVE=5m

# 清理未使用的模型
ollama rm model_name
# 查看模型占用空间
du -sh $OLLAMA_MODELS/*
# 定期清理缓存
rm -rf $OLLAMA_MODELS/.cache/*

#!/bin/bash
# monitor_ollama.sh
echo "Monitoring Ollama Performance..."
echo "================================"
while true; do
    clear
    echo "$(date '+%Y-%m-%d %H:%M:%S')"
    echo "--------------------------------"
    # GPU 状态
    echo "GPU Status:"
    sudo tegrastats | head -n1
    # 内存使用
    echo -e "\nMemory Usage:"
    free -h | grep -E "^Mem|^Swap"
    # Ollama 进程
    echo -e "\nOllama Process:"
    ps aux | grep -E "ollama|PID" | grep -v grep
    # 模型列表
    echo -e "\nLoaded Models:"
    ollama list 2>/dev/null || echo "Service not running"
    sleep 5
done

问题	可能原因	解决方案
只显示 CPU 推理	未安装 lib 目录	重新解压并复制 lib 文件夹
内存不足错误	模型过大/上下文过长	减小 CONTEXT_LENGTH 或使用更小模型
推理速度慢	功耗模式限制	执行 `sudo jetson_clocks`
模型下载失败	网络问题	配置代理或使用镜像源
端口被占用	11434 已被使用	修改 OLLAMA_HOST 端口

# 检查 CUDA 是否可用
python3 -c "import torch; print(torch.cuda.is_available())"
# 查看 Ollama 日志
journalctl -u ollama --no-pager -n 50
# 测试 API 连接
curl http://127.0.0.1:11434/api/tags
# 强制使用 GPU
export CUDA_VISIBLE_DEVICES=0

# 1. 检查温度节流
cat /sys/class/thermal/thermal_zone*/temp
# 2. 查看内存碎片
cat /proc/buddyinfo
# 3. 检查 I/O 性能
iostat -x 1
# 4. 分析系统瓶颈
htop iotop

# 创建用户级服务
mkdir -p ~/.config/systemd/user
cat > ~/.config/systemd/user/ollama.service <<'EOF'
[Unit]
Description=Ollama AI Model Server
After=network-online.target
Wants=network-online.target

[Service]
Type=simple
Restart=always
RestartSec=3
TimeoutStartSec=300
# 环境变量
Environment="PATH=%h/apps/ollama/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"
Environment="OLLAMA_MODELS=/data/ollama/models"
Environment="OLLAMA_HOST=127.0.0.1:11434"
Environment="OLLAMA_KEEP_ALIVE=5m"
Environment="OLLAMA_NUM_PARALLEL=1"
Environment="OLLAMA_CONTEXT_LENGTH=2048"
# 启动命令
ExecStart=%h/apps/ollama/bin/ollama serve
# 资源限制
LimitNOFILE=65536
LimitMEMLOCK=infinity

[Install]
WantedBy=default.target
EOF

# 重载服务配置
systemctl --user daemon-reload
# 启用开机自启
systemctl --user enable ollama
# 启动服务
systemctl --user start ollama
# 查看状态
systemctl --user status ollama
# 查看日志
journalctl --user -u ollama -f

# 启用 linger（需要 sudo 权限）
sudo loginctl enable-linger $USER
# 验证
loginctl show-user $USER | grep Linger

#!/usr/bin/env python3
""" 机器人语义地标导航示例 集成 Ollama 进行自然语言理解 """
import json
import requests
from typing import Dict, List

class SemanticNavigator:
    def __init__(self, ollama_url="http://127.0.0.1:11434"):
        self.ollama_url = ollama_url
        self.model = "llama3.2:1b-instruct-q4_0"

    def parse_navigation_intent(self, user_input: str) -> Dict:
        """解析用户导航意图"""
        prompt = f"""你是一个机器人导航助手。分析以下指令并返回 JSON 格式：{{"action": "navigate/stop/pause", "landmark": "具体地标名称", "confidence": 0.0-1.0}} 用户指令：{user_input} 只返回 JSON，不要其他解释。"""
        response = requests.post(f"{self.ollama_url}/api/generate", json={"model": self.model, "prompt": prompt, "stream": False, "options": {"temperature": 0.3}})
        try:
            result = response.json()['response']
            return json.loads(result)
        except:
            return {"action": "unknown", "landmark": None, "confidence": 0.0}

    def get_path_description(self, start: str, end: str) -> str:
        """生成路径描述"""
        prompt = f"用一句话描述从{start}到{end}的路径。"
        response = requests.post(f"{self.ollama_url}/api/generate", json={"model": self.model, "prompt": prompt, "stream": False, "options": {"temperature": 0.5, "max_tokens": 50}})
        return response.json()['response']

# 使用示例
if __name__ == "__main__":
    nav = SemanticNavigator()
    # 测试意图解析
    test_commands = ["带我去充电桩", "停止移动", "去会议室开会"]
    for cmd in test_commands:
        result = nav.parse_navigation_intent(cmd)
        print(f"指令：{cmd}")
        print(f"解析：{json.dumps(result, ensure_ascii=False)}")
        print("-" * 40)

感知层 (Camera/Lidar)
↓
场景理解 (CV/SLAM)
↓
语义提取 (JSON)
↓
LLM 推理 (Ollama)
↓
决策规划 (Structured Output)
↓
执行控制 (ROS Actions)

Jetson Orin NX 部署 Ollama 与 Llama 3.2

Jetson Orin NX 上部署 Ollama + Llama 3.2

一、环境准备与系统要求

1.1 硬件要求

1.2 软件要求

1.3 模型存储空间估算

二、系统环境检查

2.1 检查 JetPack 版本

2.2 验证 GPU 状态

2.3 存储空间规划

三、安装 Ollama（JetPack 5 专用版）

3.1 安装目录规划

3.2 下载 Ollama JetPack 5 版本

3.3 安装 Ollama

四、配置运行环境

4.1 配置环境变量

4.2 永久保存配置

五、启动 Ollama 服务与 GPU 验证

5.1 启动服务

5.2 验证 GPU 支持

5.3 GPU 使用监控

六、部署 Llama 3.2 模型

6.1 模型选择策略

6.2 拉取模型

6.3 运行模型

6.4 性能测试

七、HTTP API 接口调用

7.1 生成接口 /api/generate

7.2 对话接口 /api/chat

7.3 流式响应

八、性能优化与调优

8.1 Jetson 功耗模式优化

8.2 内存和上下文优化

8.3 存储优化

8.4 性能监控脚本

九、常见问题与解决方案

9.1 问题诊断清单

9.2 调试命令集

9.3 性能问题排查

十、系统服务配置

10.1 创建 systemd 服务

10.2 启用服务

10.3 设置用户会话持久化

十一、实战应用场景

11.1 机器人语义导航集成

11.2 边缘端优化建议

总结

📊 性能参考

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

7.1 生成接口 `/api/generate`

7.2 对话接口 `/api/chat`