Jetson 上 OpenClaw + Ollama + llama.cpp 的联动配置模板部署大模型

优质文章学习记录

06 Apr 2026 — 5 min read

Jetson 上我建议的联动方式是：OpenClaw -> Ollama（主模型，原生 API）+ llama.cpp（备用/低资源模型，OpenAI 兼容 API）+ Ollama embeddings（memorySearch）。 这样做的原因是，OpenClaw 官方把 Ollama + openclaw onboard 作为最低冲突的本地方案；同时它也支持把 vLLM / LiteLLM / 自定义 OpenAI-compatible 本地代理 作为额外 provider 接进来。Ollama 这边，OpenClaw 明确推荐走原生 http://host:11434，不要给它配 /v1，否则工具调用会变差；而 llama.cpp 的 llama-server 则原生提供 OpenAI-compatible chat completions / responses / embeddings 路由，适合当第二套本地后端。([OpenClaw][1])

另外，OpenClaw 的本地模型指南也明确提醒：它默认期待大上下文和较强的提示注入防护，小硬件上的强量化/小模型更容易丢上下文或降低安全裕量。所以在 Jetson Orin NX 16G 上，更稳的策略是把 Ollama 设为主模型，把 llama.cpp 设为 fallback 或专用模型，而不是反过来。([OpenClaw][1])

下面给你一份推荐版模板：
特点是 Ollama 走自动发现，你不用手工维护本地模型清单；llama.cpp 作为一个显式自定义 provider 接入；memorySearch 用 Ollama 的 /api/embeddings。OpenClaw 的文档说明，只要设置了 OLLAMA_API_KEY 且没有显式写 models.providers.ollama，它就会从本地 http://127.0.0.1:11434 自动发现模型。memorySearch.provider = "ollama" 也是官方支持的，只是不会自动选中，所以这里显式打开。([OpenClaw][2])

先准备环境变量：

exportOLLAMA_API_KEY="ollama-local"exportOPENCLAW_GATEWAY_TOKEN="replace-with-a-long-random-token"

把下面保存为 ~/.openclaw/openclaw.json：

{ identity: { name: "Jetson-Claw", theme: "local edge agent", emoji: "🦙", }, gateway: { bind: "loopback", port: 18789, auth: { token: "${OPENCLAW_GATEWAY_TOKEN}", }, }, agent: { workspace: "~/.openclaw/workspace", }, agents: { defaults: { model: { // 主模型：走 Ollama（自动发现） primary: "ollama/qwen2.5:7b-instruct", // 备用：先退到 llama.cpp，再退到另一个 Ollama 小模型 fallbacks: [ "llamacpp/qwen2.5-7b-instruct-gguf", "ollama/llama3.2:3b", ], }, models: { "ollama/qwen2.5:7b-instruct": { alias: "Ollama 主模型" }, "llamacpp/qwen2.5-7b-instruct-gguf": { alias: "llama.cpp 备用" }, "ollama/llama3.2:3b": { alias: "Ollama 小模型" }, }, memorySearch: { enabled: true, // 用 Ollama embeddings，而不是 OpenClaw 的 local(node-llama-cpp) 模式 provider: "ollama", // 换成你本机实际装好的 embedding 模型 model: "YOUR_OLLAMA_EMBED_MODEL", // Jetson 上先不要再级联更多 embedding fallback，保持简单 fallback: "none", cache: { enabled: true, maxEntries: 50000, }, sync: { watch: true, }, }, }, }, models: { // 保留合并模式，未来你还可以叠加云端 provider mode: "merge", providers: { // llama.cpp 作为自定义 OpenAI-compatible provider llamacpp: { baseUrl: "http://127.0.0.1:8080/v1", apiKey: "llama-local", api: "openai-completions", models: [ { id: "qwen2.5-7b-instruct-gguf", name: "Qwen2.5 7B Instruct GGUF", reasoning: false, input: ["text"], cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 }, contextWindow: 4096, maxTokens: 1024, }, ], }, }, }, }

这个模板的关键点有三个：

第一，Ollama 不写 models.providers.ollama。因为官方文档说，一旦你显式写了 models.providers.ollama，自动发现会被关闭，你就得自己维护模型列表；不写则会自动从本地 Ollama 实例发现模型。([OpenClaw][2])

第二，llama.cpp 走 /v1，并用 api: "openai-completions"。OpenClaw 官方对“其他 OpenAI-compatible 本地代理”给的标准接法，就是 models.providers.<id> + baseUrl + api + models 这一套；而 llama.cpp 官方文档确认 llama-server 提供 OpenAI-compatible 路由。([OpenClaw][1])

第三，memorySearch 用 Ollama，不用 local。因为 OpenClaw 文档里写得很清楚：memorySearch.provider = "local" 走的是 node-llama-cpp，可能需要额外的 pnpm approve-builds / pnpm rebuild；而 memorySearch.provider = "ollama" 是官方支持的本地/self-hosted embeddings 路径，更适合先把 Jetson 跑稳。([OpenClaw][3])

启动顺序

先起 Ollama。Ollama 官方 API 默认就在 http://localhost:11434/api。 ([Ollama Docs][4])

ollama serve ollama list

然后起 llama.cpp：

~/src/llama.cpp/build/bin/llama-server \-m ~/models/base/model.gguf \--host127.0.0.1 \--port8080\-c4096\-np1\-ctk q8_0 \-ctv q8_0

再检查两个后端：

curl http://127.0.0.1:11434/api/tags curl http://127.0.0.1:8080/v1/models

最后让 OpenClaw 读配置：

openclaw gateway restart openclaw models list openclaw health openclaw gateway status

如果你想把 Ollama 也改成“显式配置”

只有在这几种情况下才建议这么做：
你要连远程 Ollama、你想强制指定 contextWindow/maxTokens、或者你想完全手工管模型列表。官方文档明确说，远程 Ollama 时应使用 baseUrl: "http://host:11434"，不要加 /v1，并把 api 设成 "ollama" 以保证原生工具调用行为。([OpenClaw][2])

对应模板是：

{ models: { mode: "merge", providers: { ollama: { baseUrl: "http://127.0.0.1:11434", apiKey: "${OLLAMA_API_KEY}", api: "ollama", models: [ { id: "qwen2.5:7b-instruct", name: "Qwen2.5 7B Instruct", reasoning: false, input: ["text"], cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 }, contextWindow: 8192, maxTokens: 2048, }, { id: "llama3.2:3b", name: "Llama 3.2 3B", reasoning: false, input: ["text"], cost: { input: 0, output: 0, cacheRead: 0, cacheWrite: 0 }, contextWindow: 8192, maxTokens: 2048, }, ], }, }, }, }

远程控制这台 Jetson 的模板

OpenClaw 官方建议把 Gateway 绑在 loopback，然后通过 SSH 隧道 从笔记本连进去；默认网关端口是 18789。如果你希望本地电脑上的 OpenClaw CLI 默认连这台 Jetson，可以把 gateway.mode: "remote" 和 gateway.remote.url/token 写进去。([OpenClaw][5])

先在你的笔记本上开隧道：

ssh-N-L18789:127.0.0.1:18789 user@jetson-host

然后在本地电脑的 OpenClaw 配置里加：

{ gateway: { mode: "remote", remote: { url: "ws://127.0.0.1:18789", token: "your-token", }, }, }

这样之后本地的 openclaw health、openclaw status 之类就会默认走这个远程 Gateway。([OpenClaw][5])

两个最容易踩的坑

不要把 OpenClaw 连 Ollama 时写成 http://127.0.0.1:11434/v1。 官方文档明确说，这会切到 OpenAI-compatible 模式，工具调用会变得不可靠，模型可能把工具 JSON 当纯文本吐出来。([OpenClaw][2])

不要一开始就把 memorySearch.provider 设成 local。 这条路走的是 node-llama-cpp，本地编译和依赖更重；Jetson 上先用 ollama embeddings 更省心。([OpenClaw][3])

后面会陆续加入openclaw gateway安全模式下与ros联动配置。

参考链接：
[1]: https://docs.openclaw.ai/gateway/local-models “Local Models - OpenClaw”
[2]: https://docs.openclaw.ai/providers/ollama “Ollama - OpenClaw”
[3]: https://docs.openclaw.ai/reference/memory-config “Memory configuration reference - OpenClaw”
[4]: https://docs.ollama.com/api/introduction “Introduction - Ollama”
[5]: https://docs.openclaw.ai/gateway/remote “Remote Access - OpenClaw”

高效能文生图引擎来了！Stable Diffusion 3.5 FP8全面支持Docker Run

高效能文生图引擎来了！Stable Diffusion 3.5 FP8全面支持Docker Run 在内容创作节奏以秒计的时代，AI生成图像的“等待感”正成为用户体验的致命短板。设计师点击按钮后要等十几秒才能看到结果？自动化内容平台因显存不足无法并发处理请求？这些痛点曾长期困扰AIGC落地。而现在，Stability AI推出的 Stable Diffusion 3.5 FP8 + Docker 组合拳，正在改写高性能文生图服务的游戏规则。这不仅是一次模型升级，更是一套面向生产环境的完整解决方案——它把前沿的低精度推理技术与工业级部署实践融合在一起，让高保真图像生成真正走进“可规模化、可运维、可集成”的工程化阶段。为什么是FP8？不只是省显存那么简单提到模型量化，很多人第一反应是“牺牲质量换速度”。但FP8（8位浮点）的出现，正在打破这一固有认知。相比常见的FP16或BF16，FP8将每个参数从2字节压缩到1字节，在理论层面直接砍掉一半存储开销。但这只是开始。真正关键的是，FP8并非简单粗暴地截断数值。它采用两种主流格式：E4M3（

5分钟部署Z-Image-Turbo，AI绘画极速上手实战

5分钟部署Z-Image-Turbo，AI绘画极速上手实战你有没有试过：输入一句“秋日银杏大道上的咖啡馆橱窗”，等了七八秒，结果生成的图里银杏叶子泛着塑料感，咖啡馆玻璃反光像马赛克？又或者，想给团队快速出几版海报方案，却卡在模型加载、依赖报错、显存溢出的死循环里？ Z-Image-Turbo不是又一个“参数更多、体积更大”的AI绘画模型。它是一次精准的工程减法——去掉冗余步骤，保留核心能力，把文生图从“能画”真正拉回到“马上就能用”的节奏里。它不挑硬件：RTX 3090、4080、甚至A10G这类16GB显存的消费级或入门级专业卡，开箱即跑；它不绕弯路：8步完成高质量图像生成，端到端延迟压进1秒内；它不玩翻译游戏：中文提示词直通语义空间，“穿青花瓷纹旗袍的少女坐在苏州园林月洞门下”——字字落地，不丢细节；它不设门槛：没有conda环境冲突，没有模型手动下载，没有CUDA版本焦虑。本文带你跳过所有理论铺垫和配置踩坑，用最短路径完成本地部署、界面访问、首图生成、效果调优。全程无需写一行新代码，不联网下载权重，

AI小说生成器：颠覆式智能写作工具让创作效率提升300%

AI小说生成器：颠覆式智能写作工具让创作效率提升300% 【免费下载链接】AI_NovelGenerator使用ai生成多章节的长篇小说，自动衔接上下文、伏笔项目地址: https://gitcode.com/GitHub_Trending/ai/AI_NovelGenerator 长篇创作总是困难重重？情节断层、角色崩坏、逻辑矛盾等问题是否让你半途而废？AI_NovelGenerator作为突破性智能写作助手，通过先进大语言模型技术，让零基础创作者也能轻松完成万字长篇小说，彻底改变传统写作模式。 1核心价值：重新定义创作效率与质量还在为章节衔接不畅烦恼？传统创作中，83%的作者因情节断层问题放弃长篇创作。AI_NovelGenerator通过智能情节衔接系统，实现伏笔自动回收，让故事逻辑连贯度提升40%，创作效率提高3倍以上。 2创新功能：五大智能系统解决创作痛点 2.1智能情节编织系统 * 🧩 自动识别伏笔线索 * 🔄 跨章节逻辑校验 * 📝 上下文语义衔接 2.2角色成长追踪引擎 * 📊 性格演变记录 * 💪 能力成长曲线 * 🤝

毕业论文写到头秃？Paperzz AI写作神器让开题到定稿效率翻倍！附全流程实操指南

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿paperzz - 毕业论文-AIGC论文检测-AI智能降重-ai智能写作https://www.paperzz.cc/dissertation 导语 “导师说标题太大”“参考文献找不到”“提纲改了八遍还是被批”……每年毕业季，多少大学生在论文的泥潭里挣扎到凌晨？当同龄人已经投递简历，你还在为“研究方法怎么写”抓耳挠腮？别慌！今天给大家挖到一个能救命的AI写作神器——Paperzz，从选题到定稿，全流程帮你把论文“丝滑”搞定！（附真实界面截图，手把手教你用）一、Paperzz是什么？学术人的“智能外挂” Paperzz并非传统代写平台，而是一款专注学术辅助的AI工具，核心定位是“用技术提效，而非替代思考”。它聚焦毕业论文全流程，覆盖选题、提纲、文献、写作、格式等环节，特别适合被“论文 deadline”追着跑的学生党。划重点： * ✅ 合规性保障：