全屋智能家居的最强大脑!极空间部署全屋AI自动化方案『Miloco』

全屋智能家居的最强大脑!极空间部署全屋AI自动化方案『Miloco』

全屋智能家居的最强大脑!极空间部署全屋AI自动化方案『Miloco』

哈喽小伙伴们好,我是Stark-C~

说到智能化家居大家都不陌生,毕竟大家或多或少都使用过,或者正在使用。

不知道大家发现没有,目前的智能家居基本都很“被动”,比如说智能灯要么靠“喊”,要么靠“感应”,空调的提前预热或制冷需要我们远程开启,家里的摄像头只是能看画面,但“看不懂”发生了什么。。。

总的来说,现在很多的智能家居广义上说其实只是在“执行命令”,而不是“理解场景”。它们更像是听话的小助手,却没有一个能主动思考、能理解你生活习惯的“大脑”。

如是,小米科技带来的『Miloco』来了!

关于Miloco

🔺Miloco(Xiaomi Local Copilot)是小米在去年十一月份(2025年11月)发布的,据说是一款“智能家居未来探索方案”,该方案以米家摄像机为视觉信息来源,打通全屋IoT设备,实现简单、便捷的全屋智能生态。该项目目前Github上开源,并且正在快速的发展壮大中。

Github主页地址:https://github.com/XiaoMi/xiaomi-miloco

项目亮点特性(引自原叙述):交互新范式:基于大模型的开发范式,通过自然语言交互就可以完成规则设置、设备的复杂指令控制。端侧大模型:将家庭场景任务拆分规划+视觉理解两个阶段,提供小米自研端侧模型Xiaomi MiMo-VL-Miloco-7B,实现端侧视频理解,保障家庭隐私安全。视觉数据新用途:以摄像头数据流作为感知信息源,使用大模型将视觉数据包含的各种家庭场景事件解析出来,用于回复用户 Query。米家生态:打通米家生态,支持米家设备、米家场景的获取与执行,支持自定义内容发送米家通知。

简单理解,Miloco就是通过AI大模型技术,将米家摄像头变成了一个有思维方式的”最强大脑“,然后通过视觉信息,自动给家里其它的智能家居下达指令。比如说:

  • 当我们坐到书桌前,它能识别你在阅读或工作时,它能自动把台灯打开并调到合适亮度;
  • 当我们躺在床上它可以为我们自动切换到睡眠模式,为我们关窗帘,或者将空调设置为合适的温度;
  • 当我们离开房间并锁门,它能判断房间无人,自动关灯关空调;
  • 当我们家里养的猫星人捣乱跳上餐桌,它能识别异常行为并通过手机远程推送提醒,甚至还通过智能音箱发送驱赶语音。

Miloco部署

部署前的说明:

🔺Miloco的服务分主服务和 AI 引擎两部分,都可以使用Docker的方式部署在本地。根据使用 AI 引擎的方式不同,分为两个方案:

  • 一个是调用云端AI大模型,这个时候我们仅需部署主服务部分就可以了。这个方案几乎不占资源,NAS 只负责设备发现与自动化逻辑,所有 AI 推理都交给云端完成,适合对隐私要求不高,轻量级的使用场景。
  • 另一个是启用本地AI大模型,需要先将大模型下载到本地,然后在 NAS 上同时部署主服务和 AI 引擎,由本地算力完成视觉理解、事件推理等任务,实现真正的“全屋本地 AI”能力。但是对GPU有要求,需要30系及以上NVIDIA显卡,显存8G及以上;显卡驱动版本527.41及以上;CUDA版本12.5.1及以上。

如果是在NAS上部署,启用本地AI大模型的方案对硬件门槛的要求还是相当高的,除了需要外置独显的支持(目前极空间支持外置独显的机型仅为Z425和T6),还要准备一块性能不俗的独显,以及额外的雷电显卡坞设备。

所以本篇我分享的方案是调用云端AI大模型,也就是说只部署主服务,没有独显要求,资源占用很低,几乎任何极空间NAS都能轻松跑起来,可以说是目前最适合大多数NAS用户的 Miloco 部署方式。

部署前的准备:

1,既然前面说过,Miloco是一个基于米家摄像头来运行的项目,所以你肯定需要一个正常联网且运行中的米家摄像头了。我家里用的正好是小米智能摄像机3 pro云台版,所以正好符合这个要求。

2,既然本篇教程是调用云端AI大模型,所以还得提前准备大模型的API。和常规的对话大模型不同,Miloco启用的大模型还需要具备视觉推理,所以个人使用的是硅基流动,里面提供了多种不同类型的多模态模型,并且这些模型都可以通过统一的 API Key 调用。

如果还没注册过硅基流动的用户,可以通过我个人的邀请链接【https://cloud.siliconflow.cn/i/BsoAsvvg】,这样你我都能免费获得16元的代金券奖励,足够我们体验一段时间的 API 调用、批量推理、微调训练等使用场景了!

开始部署:

🔺打开极空间NAS的文件管理器,在Docker目录下新建一个“miloco”的文件夹,然后在它下面新建data、log两个子文件夹。

🔺然后点击极空间NAS的“Docker”应用,点击【Compose】 > 【新增项目】。

🔺在新增项目页面自定义项目名称,输入以下 Docker Compose 配置信息后点“创建”按钮:

services: backend:   container_name: miloco-backend   image: ghcr.io/xiaomi/miloco-backend:latest   network_mode: host   environment:     - BACKEND_HOST=0.0.0.0     - BACKEND_PORT=8002   # 项目Web页面打开端口,冒号前面请勿本地冲突     - AI_ENGINE_HOST=0.0.0.0     - AI_ENGINE_PORT=8001     - BACKEND_LOG_LEVEL=info     - TZ=Asia/Shanghai   volumes:     - ./Docker/miloco/data:/app/miloco_server/.temp   # 冒号前面映射data子文件夹本地路径     - ./Docker/miloco/log:/app/miloco_server/.temp/log   # 冒号前面映射log子文件夹本地路径   restart: unless-stopped   healthcheck:     disable: true

以上代码需要修改的地方我都用中文注释标注出来了,其它的直接保持默认即可。镜像的拉取需要自行解决网络问题,粘贴到自己的NAS这边之前建议使用AI工具优化一下,以防止格式问题造成的部署失败。

顺便说一下,volumes映射的路径需要在当前界面使用“查询路径”查找到真实路径直接复制粘贴就可以了,个人觉得极空间这里对于新手小白已经是相当友好的操作了。

Snipaste_2026-02-12_22-07-31

🔺项目只有一个容器,看到显示“运行中”,就说明可以使用了。

Miloco体验

🔺部署好的Miloco项目可以通过浏览器输入【https://IP:端口号】

🔺设置好之后输入登录码登录(这步忘记截图了~),之后会有一个协议说明,直接勾选并“同意”即可。

🔺之后会让我们登录自己的小米账号授权,可以直接输入账号和密码,也可以通过APP扫码的方式。这里大家直接登录即可,毕竟是官方项目,安全性还是没什么问题的。

🔺授权成功之后会有提示,这里需要输入我们部署好的Miloco服务链接(其实就是“https://NAS IP:端口号),然后”点击跳转“。

🔺这样我们就打开了项目的主页。大家可以看到因为我绑定的账号中已经有一个米家摄像头,它在主页面已经显示出来了。

🔺点击摄像头是可以看到当前摄像头所拍下的画面的。

🔺接下来的操作就是将大模型加入进来,点击“模型管理”。

🔺不知道是我个人网络问题还是bug,我点开之后会有一个500的错误提醒。

🔺然后直接点击浏览器的左上角的“后退”按钮就正常了,进来之后点击“添加模型”。

Snipaste_2026-02-13_17-22-43

🔺前面说过我准备的是硅基流动模型,所以Base URLzheli 填“https://api.siliconflow.cn/v1”,API Key就填写你自己的新建的API 秘钥,模型名称建议和我一样,使用“deepseek-ai/DeepSeek-V3.2”和“Qwen/Qwen3-VL-32B-Instruct”两个就可以了。(不排除有更好的选择,小伙伴们可以随意尝试)。

🔺添加好之后再“高级配置”这里,规划大模型选择“deepseek-ai/DeepSeek-V3.2”,视觉理解选择“Qwen/Qwen3-VL-32B-Instruct”,然后就可以使用了。

🔺回到首页“AI中心”,我们直接在对话框中问它“看看画面有什么”,可以看到它也有一个思考的过程,回答的信息也非常详细,并且我也可以很负责的告诉大家,它的准确度是达到了95%以上,还是挺厉害的。

🔺至于创建规则,如果不会我们直接让它自动创建即可。

🔺虽说并不能保证一定成功,或者完全和你的意,但是基本上不需要我们动手,也指出了问题出在哪里,这些操作感觉和现在正火的OpenClaw有异曲同工之妙。

Snipaste_2026-02-13_17-07-27

🔺在“设备管理”中是可以查看当前授权账号下的所有米家智能家居设备,不过目前只是查看,并不能进行具体的操作。

🔺在“设置”中还可以通过Home Assistant 授权加入更多智能家居设备,我这里没有配置Home Assistant ,就不往下演示了~

最后

总之,Miloco 不再是传统意义上“等我们发指令”的智能家居系统,而是一个能主动理解、主动判断、主动行动的全屋 AI 管家。虽说Miloco 目前算不上完美,并且上手还需要花一点时间,但是它已经指出了下一代智能家居的发展方向:把摄像头变成眼睛,把规则交给 AI ,这种组合确实很有想象空间。有兴趣的小伙伴建议先动手部署起来,亲自体验一下这个“战未来”的AI智能项目吧!

目前正值年货节,极空间的各大NAS产品也迎来了超值限时优惠,多款产品又跌入历史低价,可以说是全年最适合入手的时间段之一。同时购买极空间NAS产品还可享受白条3期或6期免息政策,180天内出现质量问题只换不修,2年官方质保。喜欢的小伙伴不要错过这次难得的机会,好好为自己备一个实用又长久的新年大礼吧。

好了,以上就是今天给大家分享的内容,我是爱分享的Stark-C,如果今天的内容对你有帮助请记得收藏,顺便点点关注,咱们下期再见!谢谢大家~

Read more

Qwen3-VL-WEBUI内容推荐:图文匹配度计算部署教程

Qwen3-VL-WEBUI内容推荐:图文匹配度计算部署教程 1. 引言 随着多模态大模型的快速发展,视觉-语言理解能力已成为AI应用的核心竞争力之一。阿里云推出的 Qwen3-VL 系列模型,作为迄今为止Qwen系列中最强大的视觉-语言模型,不仅在文本生成与理解方面表现卓越,更在图像识别、空间感知、视频分析和跨模态推理上实现了全面突破。 本文将聚焦于 Qwen3-VL-WEBUI 的本地化部署实践,重点讲解如何基于该Web界面工具实现“图文匹配度计算”功能的快速落地。我们将以开源项目为基础,结合内置的 Qwen3-VL-4B-Instruct 模型,手把手带你完成从环境准备到实际调用的全流程操作,适合希望快速验证多模态能力的技术人员和开发者。 2. 技术背景与核心价值 2.1 什么是Qwen3-VL? Qwen3-VL 是通义千问团队发布的第三代视觉-语言大模型,具备以下关键特性: * 更强的图文融合能力:通过深度对齐机制实现无损的文本-图像语义映射。 * 超长上下文支持:原生支持 256K tokens 上下文,可扩展至 1M,适用于整本书籍或数小时视频的理解

前端实战:手把手教你实现浏览器通知功能

前端实战:手把手教你实现浏览器通知功能

前端入门:浏览器通知功能从0到1实现指南 作为前端学习者,你可能见过这样的场景:打开网页版聊天工具,就算把浏览器最小化,桌面也会弹出“新消息”提醒;或者某些网站的活动通知,会直接显示在电脑/手机桌面上。这种功能就是「浏览器桌面通知」,今天我们就从零开始,搞懂它、学会用它。 一、先搞懂3个基础问题 1. 什么是浏览器桌面通知? 简单说,就是网页能在浏览器窗口外面(比如电脑桌面、手机屏幕)给你发提醒。哪怕浏览器最小化、甚至页面切到后台,只要权限允许,都能收到通知,不用一直盯着网页。 2. 什么时候会用到它? 常见场景很贴近日常: * 网页版微信/QQ的新消息提醒; * 工作系统的审批提醒、任务到期通知; * 电商网站的订单状态更新(比如“你的快递已发货”); * 新闻/小说网站的订阅内容更新提醒。 3. 用起来难吗?有什么限制? 不难!核心就2步:先让用户同意开启通知(申请权限)

Go语言中的未来:从泛型到WebAssembly

Go语言中的未来:从泛型到WebAssembly 前言 作为一个在小厂挣扎的Go后端老兵,我对Go语言未来的理解就一句话:能进化的绝不固步自封。 想当年刚接触Go语言时,它还没有泛型,没有模块系统,甚至连错误处理都被人诟病。现在的Go语言已经今非昔比,泛型来了,模块系统完善了,错误处理也有了更多选择。 今天就聊聊Go语言的未来发展,从泛型到WebAssembly,给大家一个能直接抄作业的方案。 为什么需要关注Go语言的未来? 我见过不少小团队,只关注当前的技术,不关心语言的发展趋势,结果技术栈逐渐落后。关注Go语言的未来能带来很多好处: * 提前准备:了解未来的特性,提前调整代码结构 * 技术选型:根据未来趋势,做出更合理的技术选型 * 职业发展:掌握最新技术,提升个人竞争力 * 项目规划:根据语言发展,制定更合理的项目规划 泛型 泛型是Go 1.18引入的重要特性,它能让我们编写更加通用的代码。 基本用法 // 定义泛型函数 func Map[T, U any](s []T, f

Open-WebUI—开箱即用的AI对话可视化神器

Open-WebUI—开箱即用的AI对话可视化神器

你是否曾兴奋地在本地部署了Ollama,却很快被冰冷的命令行和繁琐的指令劝退?是否羡慕ChatGPT那样优雅的聊天界面,却又希望数据能牢牢掌握在自己手中?OpenWebUI。这个在GitHub上狂揽 110,000 Stars 的明星项目,完美地解决了所有痛点 github地址: https://github.com/open-webui/open-webui 1.什么是Open WebUI? Open WebUI 是一款专为大型语言模型(LLM)设计的 开源可视化交互框架,它通过简洁的Web界面,让用户无需编写代码即可与本地部署的AI模型/各大服务商提供大模型API(如DeepSeek、Llama、ChatGLM等)进行自然对话。其核心使命是 “让LLM私有化部署像打开浏览器一样简单” ,尤其适合需要快速搭建企业级AI平台或追求数据隐私的开发者。 2. 核心价值 * 开箱即用:无需复杂的前端开发,快速搭建 AI 交互界面。完全开源,可自由部署、修改和二次开发,无商业使用限制。 * 多模型支持:兼容 Ollama、