简单易学的分离式部署小米智能家居Miloco方法

Ne0inhk

24 Mar 2026 — 4 min read

一、安装环境

Windows用户：安装WSL2以及Docker
macOS/Linux用户：安装Docker
此处不再赘述，网上随便找个教程即可。特别地，对于Windows用户来说，你需要将 WSL2 的网络模式设置为 Mirrored。

二、使用Docker部署Miloco后端

以下均为bash命令。请Windows用户进入WSL2 / Linux、macOS用户进入终端操作：

mkdir miloco cd milico vi docker-compose.yml

以下是compose的内容（不会使用vi的同学可以傻瓜式操作：先按i，再使用粘贴功能，然后按冒号，输入wq然后回车，记得关闭输入法）：

services:backend:container_name: miloco-backend image: ghcr.nju.edu.cn/xiaomi/miloco-backend:latest network_mode: host expose:- ${BACKEND_PORT:-8000}environment:- BACKEND_HOST=${BACKEND_HOST:-0.0.0.0}- BACKEND_PORT=${BACKEND_PORT:-8000}- AI_ENGINE_HOST=${AI_ENGINE_HOST:-0.0.0.0}- AI_ENGINE_PORT=${AI_ENGINE_PORT:-8001}- BACKEND_LOG_LEVEL=${BACKEND_LOG_LEVEL:-info}- TZ=${TZ:-Asia/Shanghai}volumes:- ./data:/app/miloco_server/.temp - ./log/backend:/app/miloco_server/.temp/log restart: unless-stopped healthcheck:disable:true

再写个.env：

vi .env

以下是.env的内容：

TZ=Asia/Shanghai BACKEND_HOST=0.0.0.0 BACKEND_PORT=8000 BACKEND_LOG_LEVER=info AI_ENGINE_HOST=0.0.0.0 AI_ENGINE_PORT=8001 AI_ENGINE_LOG_LEVER=info

继续执行命令：

mkdir -p data mkdir -p log/backend docker compose up -d

静待下载镜像以及运行即可。

三、部署视觉大模型

对于小白用户（含非专业的AMD用户），此处建议使用LM Studio或Ollama来部署GGUF版的VL模型。
如果你有一张高性能NVIDIA显卡（RTX3090、RTX4090、RTX5090等显存>=24G的），想要更加专业稳定的服务，那么建议使用vLLM或SGLang进行生产级服务部署。
此处为了照顾Windows及macOS小白用户，以简单易用的LM Studio举例。

下载LM Studio并安装

https://lmstudio.ai/

设置及下载模型

点击界面最右下角的设置图标，

App Settings-General-Language-简体中文
App Settings-Developer-启用本地 LLM 服务

检查环境安装情况

还是在设置页-Runtime

NVIDIA用户

Vulkan llama.cpp
CUDA llama.cpp
CPU llama.cpp
CUDA 12 llama.cpp
Harmony

AMD用户

Vulkan llama.cpp
ROCm llama.cpp
CPU llama.cpp
Harmony

苹果用户

Vulkan llama.cpp
Metal llama.cpp
MLX llama.cpp
CPU llama.cpp
Harmony

下载模型

Model Search-搜索框中输入：xiaomi-open-source/Xiaomi-MiMo-VL-Miloco-7B-GGUF
点击右下角Download即可

运行模型并提供API服务

下载完成后点击页面左侧的“开发者”（一个绿色终端图标，位于对话图标下方）
点击页面顶部加载模型
你应该能够看到xiaomi-mimo-vl-miloco-7b是READY状态。
页面顶部有一个Status: Stopped，点击开关，切换到Running。
点击Server Settings，打开“在网络中提供服务”。
你将得到一个局域网地址，显示在右侧的Reachable at中，如：http://192.168.50.210:1234。复制它。

四、与Miloco对接

假设你的Docker宿主机IP为192.168.50.123，那么就访问https://192.168.50.123:8000/。首次设置会让你登录账号，登录后有一个callback地址，也填写192.168.50.123:8000。

对接VL模型

点击模型管理-云端模型-添加模型：
Base URL输入http://192.168.50.210:1234/v1
API Key随便填
模型ID填xiaomi-mimo-vl-miloco-7b，再点击一下以添加。
完成后在上方“视觉理解大模型”中选择云端：xiaomi-mimo-vl-miloco-7b

对接规划模型

对于许多用户来说，走到这一步的时候，想必你的显存/统一内存已经所剩无几了吧！让我们白嫖一下硅基流动的大模型。

访问https://cloud.siliconflow.cn/，注册并登录。
点击左侧的API密钥，生成一个，复制出来（sk开头的）
还是添加云端模型:
Base URL输入https://api.siliconflow.cn/v1
API Key填刚才生成的
模型ID选Qwen/Qwen3-8B
完成后在上方“规划大模型”中选择云端：Qwen/Qwen3-8B

回到AI中心，开始你的Miloco之旅吧！

五、一点Tips

对于规划模型，你可以尝试使用更强的大模型，它们调用工具更稳定，比如Kimi K2、Minimax M2等。Qwen3-8B的训练时间较早且对齐略有问题，可能不能很好地稳定调用工具。这只是一个便宜的入门之选。
对于VL模型，有条件的同学可以尝试部署全精度版本，使用vLLM提供服务，会获得更棒的体验。
官方文档中推荐的安装方式只是多集成了一个AI Engine，本质上就是对llama.cpp的封装。分离式部署大模型服务更灵活。
吐槽：我曾经想着提个pr来适配更多平台，但发现代码里硬编码了许多CUDA/nvidia相关的东西，蒜鸟蒜鸟。
有疑问可以联系我：[email protected]，不保证时效性。

安装openclaw时出现npm error code ENOENT npm error syscall spawn git报错的解决方案

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为ZEEKLOG博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了安装openclaw时出现npm error code ENOENT npm error syscall spawn git报错的解决方案，希望能对使用openclaw的同学们有所帮助。文章目录 * 1. 问题描述 * 2. 解决方案 1. 问题描述今天在使用命令安装openclaw时，却出现了npm error code ENOENT和npm error syscall spawn git的错误提示，具体报错信息如下图所示：在经过了亲身的实践后，终于找到了解决问题的方案，最终将逐步的操作过程总结如下。希望能对遇到同样bug的同学们有所帮助。

【数据库】国产数据库的新机遇：电科金仓以融合技术同步全球竞争

7月15日，国产数据库厂商中电科金仓（北京）科技股份有限公司（以下简称“电科金仓”）在北京举行了一场技术发布会，集中发布四款核心产品：AI时代的融合数据库KES V9 2025、企业级统一管控平台KEMCC、数据库一体机（云数据库AI版）以及企业级智能海量数据集成平台KFS Ultra，并同步举行了“金兰组织2.0”启动仪式。如果放在过去几年，这场发布会可能被归入“信创替代”的常规范畴。但这一次，电科金仓试图讲述的不再是“我们也能做、我们可以兼容”，而是“我们能不能定义下一代数据库形态”。整个发布会贯穿了三个关键词：“融合”“AI”“平台能力”。这背后的核心逻辑是清晰的：在“去IOE”与“兼容Oracle”的红利渐近尾声之际，国产数据库厂商开始面对一个更加复杂、也更具挑战性的市场命题——如何在大模型时代支撑非结构化数据、高维向量检索和复杂语义计算的新需求？正如我国数据库学科带头人王珊教授所说，数据库内核与AI能力的深度结合，已成为释放数据核心价值的关键路径，正催生着更智能、更自适应、更能应对复杂挑战的新一代数据库形态。

CosyVoice3支持ARPAbet音素标注，提升英文发音准确性

CosyVoice3支持ARPAbet音素标注，提升英文发音准确性在当前智能语音技术迅猛发展的背景下，用户对语音合成（TTS）系统的期待早已超越“能说话”这一基础功能。无论是虚拟主播的日常播报、在线教育中的英语带读，还是车载导航里清晰准确的路名提示，人们都希望听到自然、地道、富有表现力的声音——尤其是面对英文内容时，“中式发音”问题长期困扰着各类应用。阿里最新开源的 CosyVoice3 正是在这样的需求驱动下推出的进阶方案。它不仅延续了前代模型在声音克隆方面的优势，更关键的是引入了对 ARPAbet 音素标注系统的原生支持，让开发者和高级用户能够直接干预英文单词的发音细节。这种“精准控音”的能力，标志着国产TTS技术开始从“通用可用”向“专业可控”迈进。精准发音控制：为什么需要 ARPAbet？很多人可能有过类似经历：输入一个简单的英文词如 minute，结果系统要么读成“分钟”（/ˈmɪnjuːt/），却无法正确表达“微小的”（/maɪˈnuːt/）。这类多音词问题在传统TTS中极为常见，根源在于模型依赖内部词典和上下文预测机制，一旦遇到歧义或未登录词，就容易“

91n边缘计算设备部署轻量TensorFlow模型全流程

91n边缘计算设备部署轻量TensorFlow模型全流程在工厂车间的流水线上，一台不起眼的小型嵌入式设备正实时分析摄像头传来的图像——它没有连接云端，也不依赖高性能GPU，却能在200毫秒内判断出产品表面是否存在划痕，并立即触发报警。这背后的核心技术，正是基于“91n”类边缘计算设备与轻量化TensorFlow模型的深度融合。这类设备算力有限、内存紧张，却承担着工业智能化转型中最关键的一环：让AI真正落地到生产现场。而要实现这一目标，不仅需要合适的硬件平台，更离不开一套高效、稳定、可规模化的软件部署方案。TensorFlow Lite 正是在这样的需求背景下脱颖而出，成为当前工业级边缘AI应用的主流选择。 TensorFlow Lite 的工程实践价值为什么是 TensorFlow Lite？这个问题的答案，藏在每一次模型转换、每一行推理代码和每一个实际部署案例中。作为 TensorFlow 针对移动端和嵌入式场景优化的轻量版本，TFLite 并非简单地“裁剪”功能，而是从底层重新设计了推理引擎。它的核心逻辑可以概括为三个阶段：模型转换 → 解释器加载 → 本地推理