Jetson 上 OpenClaw + Ollama + llama.cpp 的联动配置模板部署大模型

优质文章学习记录

09 Apr 2026 — 5 min read

Jetson 上我建议的联动方式是：OpenClaw -> Ollama（主模型，原生 API）+ llama.cpp（备用/低资源模型，OpenAI 兼容 API）+ Ollama embeddings（memorySearch）。 这样做的原因是，OpenClaw 官方把 Ollama + openclaw onboard 作为最低冲突的本地方案；同时它也支持把 vLLM / LiteLLM / 自定义 OpenAI-compatible 本地代理 作为额外 provider 接进来。Ollama 这边，OpenClaw 明确推荐走原生 http://host:11434，不要给它配 /v1，否则工具调用会变差；而 llama.cpp 的 llama-server 则原生提供 OpenAI-compatible chat completions / responses / embeddings 路由，适合当第二套本地后端。([OpenClaw][1])

另外，OpenClaw 的本地模型指南也明确提醒：它默认期待大上下文和较强的提示注入防护，小硬件上的强量化/小模型更容易丢上下文或降低安全裕量。所以在 Jetson Orin NX 16G 上，更稳的策略是把 Ollama 设为主模型，把 llama.cpp 设为 fallback 或专用模型，而不是反过来。([OpenClaw][1])

下面给你一份推荐版模板：
特点是 Ollama 走自动发现，你不用手工维护本地模型清单；llama.cpp 作为一个显式自定义 provider 接入；memorySearch 用 Ollama 的 /api/embeddings。OpenClaw 的文档说明，只要设置了 OLLAMA_API_KEY 且没有显式写 models.providers.ollama，它就会从本地 http://127.0.0.1:11434 自动发现模型。memorySearch.provider = "ollama" 也是官方支持的，只是不会自动选中，所以这里显式打开。([OpenClaw][2])

先准备环境变量：

exportOLLAMA_API_KEY="ollama-local"exportOPENCLAW_GATEWAY_TOKEN="replace-with-a-long-random-token"

把下面保存为 ~/.openclaw/openclaw.json：

{ identity: { name: "Jetson-Claw", theme: "local edge agent", emoji: "🦙", }, gateway: { bind: "loopback", port: 18789, auth: { token: "${OPENCLAW_GATEWAY_TOKEN}", }, }, agent: { workspace: "~/.openclaw/workspace", }, agents: { defaults: { model: { // 主模型：走 Ollama（自动发现） primary: "ollama/qwen2.5:7b-instruct", // 备用：先退到 llama.cpp，再退到另一个 Ollama 小模型 fallbacks: [ "llamacpp/qwen2.5-7b-instruct-gguf", "ollama/llama3.2:3b", ], }, models: { "ollama/qwen2.5:7b-instruct": { alias: "Ollama 主模型" }, "llamacpp/qwen2.5-7b-instruct-gguf": { alias: "llama.cpp 备用" }, "ollama/llama3.2:3b": { alias: "Ollama 小模型" }, }, memorySearch: { enabled: true, // 用 Ollama embeddings，而不是 OpenClaw 的 local(node-llama-cpp) 模式 provider: "ollama", // 换成你本机实际装好的 embedding 模型 model: "YOUR_OLLAMA_EMBED_MODEL", // Jetson 上先不要再级联更多 embedding fallback，保持简单 fallback: "none", cache: { enabled: true, maxEntries: 50000, }, sync: { watch: true, }, }, }, }, models: { // 保留合并模式，未来你还可以叠加云端 provider mode: "merge", providers: { // llama.cpp 作为自定义 OpenAI-compatible provider llamacpp: { baseUrl: "http://127.0.0.1:8080/v1", apiKey: "llama-local", api: "openai-completions", models: [ { id: "qwen2.5-7b-instruct-gguf", name: "Qwen2.5 7B Instruct GGUF", reasoning: false, input: ["text"], cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 }, contextWindow: 4096, maxTokens: 1024, }, ], }, }, }, }

这个模板的关键点有三个：

第一，Ollama 不写 models.providers.ollama。因为官方文档说，一旦你显式写了 models.providers.ollama，自动发现会被关闭，你就得自己维护模型列表；不写则会自动从本地 Ollama 实例发现模型。([OpenClaw][2])

第二，llama.cpp 走 /v1，并用 api: "openai-completions"。OpenClaw 官方对“其他 OpenAI-compatible 本地代理”给的标准接法，就是 models.providers.<id> + baseUrl + api + models 这一套；而 llama.cpp 官方文档确认 llama-server 提供 OpenAI-compatible 路由。([OpenClaw][1])

第三，memorySearch 用 Ollama，不用 local。因为 OpenClaw 文档里写得很清楚：memorySearch.provider = "local" 走的是 node-llama-cpp，可能需要额外的 pnpm approve-builds / pnpm rebuild；而 memorySearch.provider = "ollama" 是官方支持的本地/self-hosted embeddings 路径，更适合先把 Jetson 跑稳。([OpenClaw][3])

启动顺序

先起 Ollama。Ollama 官方 API 默认就在 http://localhost:11434/api。 ([Ollama Docs][4])

ollama serve ollama list

然后起 llama.cpp：

~/src/llama.cpp/build/bin/llama-server \-m ~/models/base/model.gguf \--host127.0.0.1 \--port8080\-c4096\-np1\-ctk q8_0 \-ctv q8_0

再检查两个后端：

curl http://127.0.0.1:11434/api/tags curl http://127.0.0.1:8080/v1/models

最后让 OpenClaw 读配置：

openclaw gateway restart openclaw models list openclaw health openclaw gateway status

如果你想把 Ollama 也改成“显式配置”

只有在这几种情况下才建议这么做：
你要连远程 Ollama、你想强制指定 contextWindow/maxTokens、或者你想完全手工管模型列表。官方文档明确说，远程 Ollama 时应使用 baseUrl: "http://host:11434"，不要加 /v1，并把 api 设成 "ollama" 以保证原生工具调用行为。([OpenClaw][2])

对应模板是：

{ models: { mode: "merge", providers: { ollama: { baseUrl: "http://127.0.0.1:11434", apiKey: "${OLLAMA_API_KEY}", api: "ollama", models: [ { id: "qwen2.5:7b-instruct", name: "Qwen2.5 7B Instruct", reasoning: false, input: ["text"], cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 }, contextWindow: 8192, maxTokens: 2048, }, { id: "llama3.2:3b", name: "Llama 3.2 3B", reasoning: false, input: ["text"], cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 }, contextWindow: 8192, maxTokens: 2048, }, ], }, }, }, }

远程控制这台 Jetson 的模板

OpenClaw 官方建议把 Gateway 绑在 loopback，然后通过 SSH 隧道 从笔记本连进去；默认网关端口是 18789。如果你希望本地电脑上的 OpenClaw CLI 默认连这台 Jetson，可以把 gateway.mode: "remote" 和 gateway.remote.url/token 写进去。([OpenClaw][5])

先在你的笔记本上开隧道：

ssh-N-L18789:127.0.0.1:18789 user@jetson-host

然后在本地电脑的 OpenClaw 配置里加：

{ gateway: { mode: "remote", remote: { url: "ws://127.0.0.1:18789", token: "your-token", }, }, }

这样之后本地的 openclaw health、openclaw status 之类就会默认走这个远程 Gateway。([OpenClaw][5])

两个最容易踩的坑

不要把 OpenClaw 连 Ollama 时写成 http://127.0.0.1:11434/v1。 官方文档明确说，这会切到 OpenAI-compatible 模式，工具调用会变得不可靠，模型可能把工具 JSON 当纯文本吐出来。([OpenClaw][2])

不要一开始就把 memorySearch.provider 设成 local。 这条路走的是 node-llama-cpp，本地编译和依赖更重；Jetson 上先用 ollama embeddings 更省心。([OpenClaw][3])

后面会陆续加入openclaw gateway安全模式下与ros联动配置。

参考链接：
[1]: https://docs.openclaw.ai/gateway/local-models “Local Models - OpenClaw”
[2]: https://docs.openclaw.ai/providers/ollama “Ollama - OpenClaw”
[3]: https://docs.openclaw.ai/reference/memory-config “Memory configuration reference - OpenClaw”
[4]: https://docs.ollama.com/api/introduction “Introduction - Ollama”
[5]: https://docs.openclaw.ai/gateway/remote “Remote Access - OpenClaw”

InstructPix2Pix效果实测：结构保留能力 vs Stable Diffusion 图生图对比

InstructPix2Pix效果实测：结构保留能力 vs Stable Diffusion 图生图对比 1. 为什么说InstructPix2Pix是真正的“魔法修图师” 你有没有过这样的经历：想把一张照片里的白天改成夜晚，或者给朋友P一副墨镜，又或者让一张普通街景变成雨天氛围——但打开PS，面对层层叠叠的图层和蒙版，最后只留下满屏困惑？传统图像编辑工具需要你懂色彩曲线、图层混合模式、甚至手绘遮罩；而Stable Diffusion这类图生图模型，又常常让人陷入“写对Prompt像解谜”的困境：多加一个词，画面就崩掉；少写一个细节，AI就自由发挥到千里之外。 InstructPix2Pix不一样。它不把你当设计师，也不把你当咒语学徒，而是直接把你当“导演”——你只需要用日常英语说出想法，它就照着执行，而且几乎不会跑偏。这不是滤镜，不是风格迁移，更不是粗暴重绘。它像一位经验丰富的修图老手，先仔仔细细看清原图里每一条轮廓线、每一个人物姿态、每一处光影关系，再只动你点名要改的那一小块。你让它“add sunglasses”，它不会顺手把人脸拉长、把背景重画一遍；你让它“

企微群机器人发markdown消息支持表格

结论 1.V1接口可以圈人，但是无法正确展示表格的markdown语法 2.V2接口可以展示表格的markdown语法，但是无法圈人 3.企微消息有长度限制前言今天是日本投降日，写篇技术文档。企业微信机器人发markdown表格信息+如何艾特人企微机器人发消息通知，目标是生成数据对比表格，然后艾特到具体的人来跟进事物的变化 1、成果收益发表格数据，圈人 2、背景目前机器人通知的内容太单调了，无法满足告警提醒的作用，需要罗列表格进行对比，需要艾特到具体人 3、解决方案如何支持markdown表格类型 1.企业微信从4.1.38开始支持markdown表格的语法了。可以参看官方文档4.1.38版本新功能介绍所以企业客户端要升级 2.我们历史使用的是msgtype：markdown，这个还是不支持的 { "msgtype": "markdown", "markdown&

【微服务】SpringBoot 整合Neo4j 图数据库项目实战详解

目录一、前言二、图数据库Neo4j 介绍 2.1 什么是图数据库 2.2 Neo4j 是什么 2.3 Neo4j 特点与功能 2.3.1 Neo4j 核心特点 2.3.2 Neo4j 核心功能 3.3 Neo4j 优点 3.4 Neo4j 核心要素三、环境准备 3.1 Neo4j 服务搭建过程 3.1.1 下载镜像 3.1.2 创建目录 3.

混合知识库搭建：本地Docker部署Neo4j图数据库与Milvus向量库

混合知识库搭建：本地Docker部署Neo4j图数据库与Milvus向量库前言在多代理混合RAG系统中，知识库是“知识储备核心”，直接决定了代理检索的精准度与响应质量。上一篇我们解析了5个子代理的执行逻辑，而这些代理能高效完成知识检索任务，背后依赖“Neo4j图知识库+Milvus向量库”的混合支撑——图知识库擅长挖掘实体关系，向量库精准匹配语义细节，二者互补形成全场景知识覆盖。本文作为系列博客的第三篇，将聚焦混合知识库的落地实现：从本地Docker部署、数据建模、索引构建，到双库协同逻辑，手把手带你搭建高可用的混合知识库，让你掌握“关系型知识+语义型知识”的全链路管理技巧。 1 混合知识库的设计逻辑：为什么需要“图+向量”双引擎？ 1.1 单一知识库的局限性 * 纯图数据库：擅长实体关系查询（如“小米的合作品牌”），但无法高效处理细粒度文本检索（如“苹果的环保目标细节”）； * 纯向量数据库：擅长语义相似性检索（如“查找与5G技术相关的内容”），但难以挖掘实体间的复杂关联（如“华为-开发-鸿蒙-适配-智能设备”