Jetson 上 OpenClaw + Ollama + llama.cpp 的联动配置模板部署大模型

优质文章学习记录

07 Apr 2026 — 5 min read

Jetson 上我建议的联动方式是：OpenClaw -> Ollama（主模型，原生 API）+ llama.cpp（备用/低资源模型，OpenAI 兼容 API）+ Ollama embeddings（memorySearch）。 这样做的原因是，OpenClaw 官方把 Ollama + openclaw onboard 作为最低冲突的本地方案；同时它也支持把 vLLM / LiteLLM / 自定义 OpenAI-compatible 本地代理 作为额外 provider 接进来。Ollama 这边，OpenClaw 明确推荐走原生 http://host:11434，不要给它配 /v1，否则工具调用会变差；而 llama.cpp 的 llama-server 则原生提供 OpenAI-compatible chat completions / responses / embeddings 路由，适合当第二套本地后端。([OpenClaw][1])

另外，OpenClaw 的本地模型指南也明确提醒：它默认期待大上下文和较强的提示注入防护，小硬件上的强量化/小模型更容易丢上下文或降低安全裕量。所以在 Jetson Orin NX 16G 上，更稳的策略是把 Ollama 设为主模型，把 llama.cpp 设为 fallback 或专用模型，而不是反过来。([OpenClaw][1])

下面给你一份推荐版模板：
特点是 Ollama 走自动发现，你不用手工维护本地模型清单；llama.cpp 作为一个显式自定义 provider 接入；memorySearch 用 Ollama 的 /api/embeddings。OpenClaw 的文档说明，只要设置了 OLLAMA_API_KEY 且没有显式写 models.providers.ollama，它就会从本地 http://127.0.0.1:11434 自动发现模型。memorySearch.provider = "ollama" 也是官方支持的，只是不会自动选中，所以这里显式打开。([OpenClaw][2])

先准备环境变量：

exportOLLAMA_API_KEY="ollama-local"exportOPENCLAW_GATEWAY_TOKEN="replace-with-a-long-random-token"

把下面保存为 ~/.openclaw/openclaw.json：

{ identity: { name: "Jetson-Claw", theme: "local edge agent", emoji: "🦙", }, gateway: { bind: "loopback", port: 18789, auth: { token: "${OPENCLAW_GATEWAY_TOKEN}", }, }, agent: { workspace: "~/.openclaw/workspace", }, agents: { defaults: { model: { // 主模型：走 Ollama（自动发现） primary: "ollama/qwen2.5:7b-instruct", // 备用：先退到 llama.cpp，再退到另一个 Ollama 小模型 fallbacks: [ "llamacpp/qwen2.5-7b-instruct-gguf", "ollama/llama3.2:3b", ], }, models: { "ollama/qwen2.5:7b-instruct": { alias: "Ollama 主模型" }, "llamacpp/qwen2.5-7b-instruct-gguf": { alias: "llama.cpp 备用" }, "ollama/llama3.2:3b": { alias: "Ollama 小模型" }, }, memorySearch: { enabled: true, // 用 Ollama embeddings，而不是 OpenClaw 的 local(node-llama-cpp) 模式 provider: "ollama", // 换成你本机实际装好的 embedding 模型 model: "YOUR_OLLAMA_EMBED_MODEL", // Jetson 上先不要再级联更多 embedding fallback，保持简单 fallback: "none", cache: { enabled: true, maxEntries: 50000, }, sync: { watch: true, }, }, }, }, models: { // 保留合并模式，未来你还可以叠加云端 provider mode: "merge", providers: { // llama.cpp 作为自定义 OpenAI-compatible provider llamacpp: { baseUrl: "http://127.0.0.1:8080/v1", apiKey: "llama-local", api: "openai-completions", models: [ { id: "qwen2.5-7b-instruct-gguf", name: "Qwen2.5 7B Instruct GGUF", reasoning: false, input: ["text"], cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 }, contextWindow: 4096, maxTokens: 1024, }, ], }, }, }, }

这个模板的关键点有三个：

第一，Ollama 不写 models.providers.ollama。因为官方文档说，一旦你显式写了 models.providers.ollama，自动发现会被关闭，你就得自己维护模型列表；不写则会自动从本地 Ollama 实例发现模型。([OpenClaw][2])

第二，llama.cpp 走 /v1，并用 api: "openai-completions"。OpenClaw 官方对“其他 OpenAI-compatible 本地代理”给的标准接法，就是 models.providers.<id> + baseUrl + api + models 这一套；而 llama.cpp 官方文档确认 llama-server 提供 OpenAI-compatible 路由。([OpenClaw][1])

第三，memorySearch 用 Ollama，不用 local。因为 OpenClaw 文档里写得很清楚：memorySearch.provider = "local" 走的是 node-llama-cpp，可能需要额外的 pnpm approve-builds / pnpm rebuild；而 memorySearch.provider = "ollama" 是官方支持的本地/self-hosted embeddings 路径，更适合先把 Jetson 跑稳。([OpenClaw][3])

启动顺序

先起 Ollama。Ollama 官方 API 默认就在 http://localhost:11434/api。 ([Ollama Docs][4])

ollama serve ollama list

然后起 llama.cpp：

~/src/llama.cpp/build/bin/llama-server \-m ~/models/base/model.gguf \--host127.0.0.1 \--port8080\-c4096\-np1\-ctk q8_0 \-ctv q8_0

再检查两个后端：

curl http://127.0.0.1:11434/api/tags curl http://127.0.0.1:8080/v1/models

最后让 OpenClaw 读配置：

openclaw gateway restart openclaw models list openclaw health openclaw gateway status

如果你想把 Ollama 也改成“显式配置”

只有在这几种情况下才建议这么做：
你要连远程 Ollama、你想强制指定 contextWindow/maxTokens、或者你想完全手工管模型列表。官方文档明确说，远程 Ollama 时应使用 baseUrl: "http://host:11434"，不要加 /v1，并把 api 设成 "ollama" 以保证原生工具调用行为。([OpenClaw][2])

对应模板是：

{ models: { mode: "merge", providers: { ollama: { baseUrl: "http://127.0.0.1:11434", apiKey: "${OLLAMA_API_KEY}", api: "ollama", models: [ { id: "qwen2.5:7b-instruct", name: "Qwen2.5 7B Instruct", reasoning: false, input: ["text"], cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 }, contextWindow: 8192, maxTokens: 2048, }, { id: "llama3.2:3b", name: "Llama 3.2 3B", reasoning: false, input: ["text"], cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 }, contextWindow: 8192, maxTokens: 2048, }, ], }, }, }, }

远程控制这台 Jetson 的模板

OpenClaw 官方建议把 Gateway 绑在 loopback，然后通过 SSH 隧道 从笔记本连进去；默认网关端口是 18789。如果你希望本地电脑上的 OpenClaw CLI 默认连这台 Jetson，可以把 gateway.mode: "remote" 和 gateway.remote.url/token 写进去。([OpenClaw][5])

先在你的笔记本上开隧道：

ssh-N-L18789:127.0.0.1:18789 user@jetson-host

然后在本地电脑的 OpenClaw 配置里加：

{ gateway: { mode: "remote", remote: { url: "ws://127.0.0.1:18789", token: "your-token", }, }, }

这样之后本地的 openclaw health、openclaw status 之类就会默认走这个远程 Gateway。([OpenClaw][5])

两个最容易踩的坑

不要把 OpenClaw 连 Ollama 时写成 http://127.0.0.1:11434/v1。 官方文档明确说，这会切到 OpenAI-compatible 模式，工具调用会变得不可靠，模型可能把工具 JSON 当纯文本吐出来。([OpenClaw][2])

不要一开始就把 memorySearch.provider 设成 local。 这条路走的是 node-llama-cpp，本地编译和依赖更重；Jetson 上先用 ollama embeddings 更省心。([OpenClaw][3])

后面会陆续加入openclaw gateway安全模式下与ros联动配置。

参考链接：
[1]: https://docs.openclaw.ai/gateway/local-models “Local Models - OpenClaw”
[2]: https://docs.openclaw.ai/providers/ollama “Ollama - OpenClaw”
[3]: https://docs.openclaw.ai/reference/memory-config “Memory configuration reference - OpenClaw”
[4]: https://docs.ollama.com/api/introduction “Introduction - Ollama”
[5]: https://docs.openclaw.ai/gateway/remote “Remote Access - OpenClaw”

Flutter 组件 bip340 适配鸿蒙 HarmonyOS 实战：次世代 Schnorr 签名，为鸿蒙 Web3 与隐私计算筑牢加密防线

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 bip340 适配鸿蒙 HarmonyOS 实战：次世代 Schnorr 签名，为鸿蒙 Web3 与隐私计算筑牢加密防线前言在鸿蒙（OpenHarmony）生态迈向去中心化金融（DeFi）、隐私通讯及安全资产管理等高阶安全场景的背景下，如何实现更高性能、更具扩展性且抗攻击能力的数字签名架构，已成为决定应用闭环安全性的“压舱石”。在鸿蒙设备这类强调分布式鉴权与芯片级安全（TEE/SE）的移动终端上，如果依然沿用传统的 ECDSA 签名算法，由于由于其固有的可延展性风险与高昂的聚合验证成本，极易由于由于在大规模节点验证时的 CPU 负载过高导致交互滞后。我们需要一种能够实现签名线性聚合、计算逻辑极简且具备原生抗延展性的密码学方案。 bip340 为 Flutter 开发者引入了比特币 Taproot 升级的核心——Schnorr 签名算法。它不仅在安全性上超越了传统标准，更通过其线性的数学特性，

从零开始使用ISSACLAB训练自己的机器人行走

ISAACLAB入门教程作者:陈维耀 1. 环境配置 1.1 推荐配置 * 操作系统: Ubuntu 22.04 LTS * 显卡: NVIDIA RTX 4080或以上 1.2 ubuntu 22.04 LTS安装参考ZEEKLOG的Ubuntu 16.04 LTS安装教程，将其中的ubuntu 16.04镜像文件替换为ubuntu 22.04镜像文件，其他步骤保持不变，建议/home与/usr的硬盘容量均不少于200Ｇ。 1.3 安装NVIDIA驱动根据自身显卡型号与操作系统，选择对应的显卡驱动，建议选择550.xxx.xxx版本的显卡驱动，按照教程进行安装即可，安装完成后在终端输入nvidia-smi，若出现以下信息则表示驱动安装成功： Thu Jun 5

Gemma-3-12B-IT WebUI作品分享：API设计文档生成+OpenAPI规范输出

Gemma-3-12B-IT WebUI作品分享：API设计文档生成+OpenAPI规范输出 1. 引言：当大模型遇上API设计如果你是一名开发者，或者负责过软件项目的技术设计，那么对API设计文档一定不会陌生。这通常是项目开发中最耗时、最繁琐，但又至关重要的环节之一。一份清晰、规范的API文档，是前后端联调、团队协作的基石，但手动编写和维护它，往往意味着大量的重复劳动和潜在的格式错误。今天，我想分享一个基于Gemma-3-12B-IT WebUI的实用案例：如何利用这个强大的开源大语言模型，快速、准确地生成高质量的API设计文档，并直接输出符合行业标准的OpenAPI规范（Swagger）文件。这不仅仅是“让AI写文档”，而是一套提升开发效率、保证文档一致性的完整工作流。 Gemma-3-12B-IT是什么？简单来说，它是Google最新一代轻量级开源大模型Gemma-3的指令微调版本。拥有120亿参数，在推理能力、多语言支持和效率上相比前代有显著提升。最关键的是，它经过了专门的指令优化，特别擅长理解人类意图并执行具体任务，比如代码生成、文本创作和——我们今天要重点展

RMBG-2.0与Vue前端集成实战：打造在线智能抠图应用

RMBG-2.0与Vue前端集成实战：打造在线智能抠图应用 1. 为什么需要一个在线智能抠图应用电商运营人员每天要处理上百张商品图，设计师反复调整人像边缘，内容创作者为短视频准备透明背景素材——这些场景里，抠图从来不是终点，而是内容生产的起点。但传统方案要么依赖Photoshop这类专业软件，学习成本高、操作耗时；要么用在线工具，却受限于文件大小、导出水印和隐私顾虑。 RMBG-2.0的出现改变了这个局面。它不是又一个“差不多能用”的模型，而是真正把发丝级精度、毫秒级响应和开箱即用体验结合在一起的开源方案。官方测试显示，在复杂发丝、半透明玻璃杯、毛绒玩具等典型难点上，它的边缘识别准确率超过90%，单图处理时间稳定在0.15秒左右——这意味着用户上传图片后，几乎不用等待就能看到结果。但光有好模型还不够。开发者真正需要的，是一个能直接嵌入现有工作流的轻量级解决方案：不需要配置Python环境，不依赖本地GPU，用户点开网页就能用，后台自动伸缩应对流量高峰。这正是Vue前端集成的价值所在——它把前沿AI能力，转化成普通用户指尖可触的操作。 2. 整体架构设计：前后端如何各司