简单易学的分离式部署小米智能家居Miloco方法

Ne0inhk

23 Mar 2026 — 4 min read

一、安装环境

Windows用户：安装WSL2以及Docker
macOS/Linux用户：安装Docker
此处不再赘述，网上随便找个教程即可。特别地，对于Windows用户来说，你需要将 WSL2 的网络模式设置为 Mirrored。

二、使用Docker部署Miloco后端

以下均为bash命令。请Windows用户进入WSL2 / Linux、macOS用户进入终端操作：

mkdir miloco cd milico vi docker-compose.yml

以下是compose的内容（不会使用vi的同学可以傻瓜式操作：先按i，再使用粘贴功能，然后按冒号，输入wq然后回车，记得关闭输入法）：

services:backend:container_name: miloco-backend image: ghcr.nju.edu.cn/xiaomi/miloco-backend:latest network_mode: host expose:- ${BACKEND_PORT:-8000}environment:- BACKEND_HOST=${BACKEND_HOST:-0.0.0.0}- BACKEND_PORT=${BACKEND_PORT:-8000}- AI_ENGINE_HOST=${AI_ENGINE_HOST:-0.0.0.0}- AI_ENGINE_PORT=${AI_ENGINE_PORT:-8001}- BACKEND_LOG_LEVEL=${BACKEND_LOG_LEVEL:-info}- TZ=${TZ:-Asia/Shanghai}volumes:- ./data:/app/miloco_server/.temp - ./log/backend:/app/miloco_server/.temp/log restart: unless-stopped healthcheck:disable:true

再写个.env：

vi .env

以下是.env的内容：

TZ=Asia/Shanghai BACKEND_HOST=0.0.0.0 BACKEND_PORT=8000 BACKEND_LOG_LEVER=info AI_ENGINE_HOST=0.0.0.0 AI_ENGINE_PORT=8001 AI_ENGINE_LOG_LEVER=info

继续执行命令：

mkdir -p data mkdir -p log/backend docker compose up -d

静待下载镜像以及运行即可。

三、部署视觉大模型

对于小白用户（含非专业的AMD用户），此处建议使用LM Studio或Ollama来部署GGUF版的VL模型。
如果你有一张高性能NVIDIA显卡（RTX3090、RTX4090、RTX5090等显存>=24G的），想要更加专业稳定的服务，那么建议使用vLLM或SGLang进行生产级服务部署。
此处为了照顾Windows及macOS小白用户，以简单易用的LM Studio举例。

下载LM Studio并安装

https://lmstudio.ai/

设置及下载模型

点击界面最右下角的设置图标，

App Settings-General-Language-简体中文
App Settings-Developer-启用本地 LLM 服务

检查环境安装情况

还是在设置页-Runtime

NVIDIA用户

Vulkan llama.cpp
CUDA llama.cpp
CPU llama.cpp
CUDA 12 llama.cpp
Harmony

AMD用户

Vulkan llama.cpp
ROCm llama.cpp
CPU llama.cpp
Harmony

苹果用户

Vulkan llama.cpp
Metal llama.cpp
MLX llama.cpp
CPU llama.cpp
Harmony

下载模型

Model Search-搜索框中输入：xiaomi-open-source/Xiaomi-MiMo-VL-Miloco-7B-GGUF
点击右下角Download即可

运行模型并提供API服务

下载完成后点击页面左侧的“开发者”（一个绿色终端图标，位于对话图标下方）
点击页面顶部加载模型
你应该能够看到xiaomi-mimo-vl-miloco-7b是READY状态。
页面顶部有一个Status: Stopped，点击开关，切换到Running。
点击Server Settings，打开“在网络中提供服务”。
你将得到一个局域网地址，显示在右侧的Reachable at中，如：http://192.168.50.210:1234。复制它。

四、与Miloco对接

假设你的Docker宿主机IP为192.168.50.123，那么就访问https://192.168.50.123:8000/。首次设置会让你登录账号，登录后有一个callback地址，也填写192.168.50.123:8000。

对接VL模型

点击模型管理-云端模型-添加模型：
Base URL输入http://192.168.50.210:1234/v1
API Key随便填
模型ID填xiaomi-mimo-vl-miloco-7b，再点击一下以添加。
完成后在上方“视觉理解大模型”中选择云端：xiaomi-mimo-vl-miloco-7b

对接规划模型

对于许多用户来说，走到这一步的时候，想必你的显存/统一内存已经所剩无几了吧！让我们白嫖一下硅基流动的大模型。

访问https://cloud.siliconflow.cn/，注册并登录。
点击左侧的API密钥，生成一个，复制出来（sk开头的）
还是添加云端模型:
Base URL输入https://api.siliconflow.cn/v1
API Key填刚才生成的
模型ID选Qwen/Qwen3-8B
完成后在上方“规划大模型”中选择云端：Qwen/Qwen3-8B

回到AI中心，开始你的Miloco之旅吧！

五、一点Tips

对于规划模型，你可以尝试使用更强的大模型，它们调用工具更稳定，比如Kimi K2、Minimax M2等。Qwen3-8B的训练时间较早且对齐略有问题，可能不能很好地稳定调用工具。这只是一个便宜的入门之选。
对于VL模型，有条件的同学可以尝试部署全精度版本，使用vLLM提供服务，会获得更棒的体验。
官方文档中推荐的安装方式只是多集成了一个AI Engine，本质上就是对llama.cpp的封装。分离式部署大模型服务更灵活。
吐槽：我曾经想着提个pr来适配更多平台，但发现代码里硬编码了许多CUDA/nvidia相关的东西，蒜鸟蒜鸟。
有疑问可以联系我：[email protected]，不保证时效性。

Flutter 三方库 huggingface_client 的鸿蒙化适配指南 - 连接全球最大 AI 开源社区、助力鸿蒙应用构建云端一体的大模型推理能力

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 huggingface_client 的鸿蒙化适配指南 - 连接全球最大 AI 开源社区、助力鸿蒙应用构建云端一体的大模型推理能力前言在 OpenHarmony 鸿蒙应用全场景智能化的今天，AI 模型的获取与推理能力已成为应用的核心竞争力。如果你希望在鸿蒙应用中集成最前沿的文本生成、图像识别或语音转写功能，而又不想从零开始训练模型，那么 Hugging Face Hub 正是你不可或缺的“AI 军火库”。huggingface_client 作为一个专为 Dart/Flutter 设计的官方级客户端，提供了对 Hugging Face API 的深度封装。本文将指导你如何在鸿蒙端利用此库轻松调取全球顶尖的开源 AI 算力。一、原原理分析 / 概念介绍 1.1

AI 生成的 UI 太丑？3 步让你的前端秒变高级感

🚀 AI 生成的 UI 太丑？3 步让你的前端秒变高级感你是不是也遇到过这种情况：满心期待地用 AI 生成一个前端页面，结果得到的是一个土到掉渣的蓝紫色界面，丑到自己都看不下去？🤦‍♂️ 别担心，你不是一个人！这是目前 90% 开发者使用 AI 写前端时都会遇到的痛点。好消息是，经过一番研究和实践，我们发现了一些有效的方法！通过几个简单的技巧，不需要手写任何 CSS，就能让 AI 帮你生成媲美专业设计师的 UI 界面。今天就手把手教你 3 步搞定，让 AI 彻底告别 “AI 味”！ 🧪 实验准备工具准备想要跟着实验，你需要准备： 1. Claude Code (2.0.55) 底层模型是 Minimax-M2

合合信息推出“多模态文本智能技术”：让AI真正理解与守护信息

近期，在刚刚召开的PRCV 2025学术会议上，由合合信息承办的“多模态文本智能大模型前沿技术与应用”主题论坛圆满举行。论坛汇聚了来自哈尔滨工业大学、南开大学、华中科技大学、小红书等高校与企业的顶尖学者与工程师，共同探讨大模型、多模态与文本智能的技术前沿与应用落地。一、从文档智能到文本智能：多模态时代的新起点作为中国领先的人工智能产品公司，合合信息长期致力于让AI理解文档、理解文本、理解世界。旗下产品“扫描全能王”“TextIn智能文档识别平台”等产品覆盖全球200多个国家和地区，累计用户数超过10亿。随着AI进入大模型与多模态阶段，AI的能力正从“看清世界”向“读懂世界”跃迁。二、“多模态文本智能技术”：AI语义理解与执行的工程实现（优化版） 1. 从“感知拼凑”到“认知统一”的范式转移传统的多模态处理流程往往采用“流水线式”架构：由OCR识别文字，再由NLP理解语义，视觉模型分析图像，最后进行简单拼接。这种松散耦合的方式容易导致语义割裂——例如，模型难以正确理解财务报表中箭头符号与数据变化之间的逻辑关系。

Flutter 三方库 http_helper 的鸿蒙化适配指南 - 打造标准化的 REST 客户端封装、支持响应式异常拦截与请求全流程钩子

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 三方库 http_helper 的鸿蒙化适配指南 - 打造标准化的 REST 客户端封装、支持响应式异常拦截与请求全流程钩子前言在 Flutter for OpenHarmony 的网络层开发中，直接使用底层的 http 库往往会导致大量的模板代码，且在处理拦截器、错误码统一转换和 Loading 态管理时力不从心。http_helper 是一套轻量级但功能完备的 REST 客户端封装库。它能帮助鸿蒙开发者快速构建一套符合工程化标准的服务层代码。本文将指导大家如何利用该库提升鸿蒙应用的网络交互质量。一、原理解析 / 概念介绍 1.1 基础原理 http_helper 基于 Dart 的 http 包进行二次封装。它通过引入 Interceptor、