简单易学的分离式部署小米智能家居Miloco方法

优质文章学习记录

08 Apr 2026 — 4 min read

一、安装环境

Windows用户：安装WSL2以及Docker
macOS/Linux用户：安装Docker
此处不再赘述，网上随便找个教程即可。特别地，对于Windows用户来说，你需要将 WSL2 的网络模式设置为 Mirrored。

二、使用Docker部署Miloco后端

以下均为bash命令。请Windows用户进入WSL2 / Linux、macOS用户进入终端操作：

mkdir miloco cd milico vi docker-compose.yml

以下是compose的内容（不会使用vi的同学可以傻瓜式操作：先按i，再使用粘贴功能，然后按冒号，输入wq然后回车，记得关闭输入法）：

services:backend:container_name: miloco-backend image: ghcr.nju.edu.cn/xiaomi/miloco-backend:latest network_mode: host expose:- ${BACKEND_PORT:-8000}environment:- BACKEND_HOST=${BACKEND_HOST:-0.0.0.0}- BACKEND_PORT=${BACKEND_PORT:-8000}- AI_ENGINE_HOST=${AI_ENGINE_HOST:-0.0.0.0}- AI_ENGINE_PORT=${AI_ENGINE_PORT:-8001}- BACKEND_LOG_LEVEL=${BACKEND_LOG_LEVEL:-info}- TZ=${TZ:-Asia/Shanghai}volumes:- ./data:/app/miloco_server/.temp - ./log/backend:/app/miloco_server/.temp/log restart: unless-stopped healthcheck:disable:true

再写个.env：

vi .env

以下是.env的内容：

TZ=Asia/Shanghai BACKEND_HOST=0.0.0.0 BACKEND_PORT=8000 BACKEND_LOG_LEVER=info AI_ENGINE_HOST=0.0.0.0 AI_ENGINE_PORT=8001 AI_ENGINE_LOG_LEVER=info

继续执行命令：

mkdir -p data mkdir -p log/backend docker compose up -d

静待下载镜像以及运行即可。

三、部署视觉大模型

对于小白用户（含非专业的AMD用户），此处建议使用LM Studio或Ollama来部署GGUF版的VL模型。
如果你有一张高性能NVIDIA显卡（RTX3090、RTX4090、RTX5090等显存>=24G的），想要更加专业稳定的服务，那么建议使用vLLM或SGLang进行生产级服务部署。
此处为了照顾Windows及macOS小白用户，以简单易用的LM Studio举例。

下载LM Studio并安装

https://lmstudio.ai/

设置及下载模型

点击界面最右下角的设置图标，

App Settings-General-Language-简体中文
App Settings-Developer-启用本地 LLM 服务

检查环境安装情况

还是在设置页-Runtime

NVIDIA用户

Vulkan llama.cpp
CUDA llama.cpp
CPU llama.cpp
CUDA 12 llama.cpp
Harmony

AMD用户

Vulkan llama.cpp
ROCm llama.cpp
CPU llama.cpp
Harmony

苹果用户

Vulkan llama.cpp
Metal llama.cpp
MLX llama.cpp
CPU llama.cpp
Harmony

下载模型

Model Search-搜索框中输入：xiaomi-open-source/Xiaomi-MiMo-VL-Miloco-7B-GGUF
点击右下角Download即可

运行模型并提供API服务

下载完成后点击页面左侧的“开发者”（一个绿色终端图标，位于对话图标下方）
点击页面顶部加载模型
你应该能够看到xiaomi-mimo-vl-miloco-7b是READY状态。
页面顶部有一个Status: Stopped，点击开关，切换到Running。
点击Server Settings，打开“在网络中提供服务”。
你将得到一个局域网地址，显示在右侧的Reachable at中，如：http://192.168.50.210:1234。复制它。

四、与Miloco对接

假设你的Docker宿主机IP为192.168.50.123，那么就访问https://192.168.50.123:8000/。首次设置会让你登录账号，登录后有一个callback地址，也填写192.168.50.123:8000。

对接VL模型

点击模型管理-云端模型-添加模型：
Base URL输入http://192.168.50.210:1234/v1
API Key随便填
模型ID填xiaomi-mimo-vl-miloco-7b，再点击一下以添加。
完成后在上方“视觉理解大模型”中选择云端：xiaomi-mimo-vl-miloco-7b

对接规划模型

对于许多用户来说，走到这一步的时候，想必你的显存/统一内存已经所剩无几了吧！让我们白嫖一下硅基流动的大模型。

访问https://cloud.siliconflow.cn/，注册并登录。
点击左侧的API密钥，生成一个，复制出来（sk开头的）
还是添加云端模型:
Base URL输入https://api.siliconflow.cn/v1
API Key填刚才生成的
模型ID选Qwen/Qwen3-8B
完成后在上方“规划大模型”中选择云端：Qwen/Qwen3-8B

回到AI中心，开始你的Miloco之旅吧！

五、一点Tips

对于规划模型，你可以尝试使用更强的大模型，它们调用工具更稳定，比如Kimi K2、Minimax M2等。Qwen3-8B的训练时间较早且对齐略有问题，可能不能很好地稳定调用工具。这只是一个便宜的入门之选。
对于VL模型，有条件的同学可以尝试部署全精度版本，使用vLLM提供服务，会获得更棒的体验。
官方文档中推荐的安装方式只是多集成了一个AI Engine，本质上就是对llama.cpp的封装。分离式部署大模型服务更灵活。
吐槽：我曾经想着提个pr来适配更多平台，但发现代码里硬编码了许多CUDA/nvidia相关的东西，蒜鸟蒜鸟。
有疑问可以联系我：[email protected]，不保证时效性。

宏智树AI：ChatGPT学术版驱动，重塑学术写作新生态

在学术研究的赛道上，低效的文献梳理、繁琐的数据处理、严苛的学术规范，常让科研工作者与高校师生陷入创作困境。宏智树AI（官网：www.hzsxueshu.com），一款由ChatGPT学术版模型深度驱动、搭载AI5.0技术架构的专业学术智能解决方案平台，专为论文写作场景量身打造，以“全流程覆盖、高精准赋能、强合规保障”为核心，构建从大纲生成到定稿答辩的一站式学术服务体系，让学术创作告别低效内耗，回归研究本质。一、顶尖技术底座：AI5.0+ChatGPT学术版，定义智能学术新高度宏智树AI的核心竞争力，源于业内领先的双重技术赋能，打破传统学术工具的性能边界，实现从“文字生成”到“学术赋能”的跨越式升级。 ChatGPT学术版模型赋予平台精准的语义理解与逻辑推理能力，深度契合文、理、工、医等全学科学术写作范式，杜绝口语化、散文化表达，让文本兼具严谨性与可读性；AI5.0技术架构则实现多模态数据原生一体化处理，将文本、数据、图表、公式等学术元素深度融合，

AI agent：介绍 ZeroClaw 安装，使用

ZeroClaw 是一款纯 Rust 编写、超轻量、高性能的 AI Agent 运行时，主打极低资源占用、快速启动与多模型/多通道接入，适合本地/嵌入式/服务器部署。一、ZeroClaw 核心介绍 ZeroClaw 定位为轻量级 AI 助手基础设施，核心优势： * 极致轻量：编译后仅约 3.4MB 单文件二进制，运行内存 < 5MB，启动 < 10ms。 * 纯 Rust 实现：无 Node.js 依赖，安全、稳定、内存安全。 * 多模型兼容：原生支持 22+ AI 服务商（OpenAI、

人工智能：计算机视觉的基础与应用

第十二篇：计算机视觉的基础与应用学习目标 💡 理解计算机视觉的基本概念和重要性 💡 掌握计算机视觉中的图像处理技术、特征提取方法、常用模型与架构 💡 学会使用计算机视觉库（OpenCV、PIL、PyTorch、TensorFlow）进行图像处理、特征提取和模型训练 💡 理解图像分类、目标检测、语义分割等任务的实现方法 💡 通过实战项目，开发一个完整的计算机视觉应用重点内容 * 计算机视觉的基本概念 * 图像处理技术（图像预处理、增强、滤波） * 特征提取方法（HOG、SIFT、ORB） * 常用模型与架构（LeNet、AlexNet、VGG、ResNet、YOLO） * 实战项目：计算机视觉应用开发（图像分类、目标检测等）一、计算机视觉基础 1.1 计算机视觉的基本概念计算机视觉（Computer Vision）是人工智能的一个重要分支，它涉及计算机与图像之间的交互。其目标是让计算机能够理解和解释图像内容，

AMD Whisper 实战：如何优化大规模语音转文本的推理效率

快速体验在开始今天关于 AMD Whisper 实战：如何优化大规模语音转文本的推理效率的探讨之前，我想先分享一个最近让我觉得很有意思的全栈技术挑战。我们常说 AI 是未来，但作为开发者，如何将大模型（LLM）真正落地为一个低延迟、可交互的实时系统，而不仅仅是调个 API？这里有一个非常硬核的动手实验：基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说，这是个绝佳的练手项目。从0到1构建生产级别应用，脱离Demo，点击打开从0打造个人豆包实时通话AI动手实验 AMD Whisper 实战：如何优化大规模语音转文本的推理效率背景痛点分析 Whisper 作为当前最先进的语音识别模型之一，在实际生产环境中面临三个核心性能瓶颈： 1. 显存占用过高：