【已开源】【嵌入式 Linux 音视频+ AI 实战项目】瑞芯微 Rockchip 系列 RK3588-基于深度学习的人脸门禁+ IPC 智能安防监控系统

优质文章学习记录

10 Apr 2026 — 4 min read

前言

本文主要介绍我最近开发的一个个人实战项目，“基于深度学习的人脸门禁+ IPC 智能安防监控系统”，全程满帧流畅运行。这个项目我目前全网搜了一圈，还没发现有相关类型的开源项目。这个项目只要稍微改进下，就可以变成市面上目前流行的三款产品，人脸识别门禁系统、IPC 安防和 NVR。在最下面会有视频演示。

本项目适用于瑞芯微 Rockchip 系列的板端，开源链接在文章最下面。

功能

人脸门禁系统

人靠近自动亮屏，人走自动息屏
支持人脸识别
支持录入人脸，并进行人脸配对（极速配对 < 0.2S）

IPC 智能安防监控系统

支持通过 onvif 实时查看摄像头画面
支持实时目标检测（支持高达80种物体检测）
支持录像
支持检测到人时自动录像
支持检测到人时自动报警

用到的硬件

野火鲁班猫4 RK3588S2
IMX415 800W 4k 摄像头
RTL8822CE Wifi+BT
mipi LCD RGB 7寸 1024×600 触摸屏
人体红外检测 SR501：通过 GPIO 读取相应数值，用于判断是否有人靠近
128×32 OLED屏：通过 I2C 通信显示画面内容，用于显示人脸检测结果
蓝牙音箱

用到的深度学习模型

yolo11：用于实时目标检测
retinaFace：用于人脸检测
facenet：用于人脸特征提取

模型需要经过转换和量化，并且进行精度评估，如果不知道如何在 Rockchip 平台进行模型转换的同学，可以参考我这篇文章：《瑞芯微 Rockchip 系列 RK3588 主流深度学习框架模型转成 rknn 模型教程》

用到的技术栈

C++
RKNN：用于在 Rockchip 上进行 NPU 推理
FFmpeg：用于音视频编解码，使用了 ffmpeg-rockchip 库进行 MPP 硬件编解码，提高编解码速度
Opencv：用于视频帧处理
LVGL：流行的 GUI 框架
Bluez-Alsa：用于连接蓝牙音箱并播放音频
Onvif：一个流行的 IP 摄像头协议标准，支持在电脑端直接查看摄像头画面，操作摄像头云台等等

线程架构图

这个项目涉及的线程较多，其中包含推理线程池、渲染线程、处理线程等待，使用了原子操作、锁、条件变量等解决了线程同步问题。

线程架构如下图所示：

如果不理解线程池概念的同学，可以参考我这篇文章：《C++ 线程池浅析》

项目演示

项目改进

由于是个人项目且时间有限，因此还存在很多可优化空间。

比如在人脸门禁系统中，可以有如下改进：

加入 IR 摄像头，进行活体检测
为人脸门禁系统加入 NFC 模块，支持通过 NFC 解锁
为人脸门禁系统加入指纹模块，支持通过指纹解锁
添加 mysql 数据库，将姓名、年龄、工号、人脸特征进行存储
…

而在 IPC 安防摄像头系统中，可以有如下改进：

加入舵机云台，完善 onvif，支持远程控制云台转动
对 yolo11 模型进行微调，加入摔倒识别、火焰识别、打架识别等等
加入 IRCUT 滤光片，添加 IR 灯，实现日夜切换功能
加入 webrtc，实现实时对话功能
…

https://github.com/qaz624824554/deep_learning_security_system

Read more

2026年03月14日全球AI前沿动态

2026年03月14日全球AI前沿动态

一句话总结 2026年3月13日前后，全球科技企业在AI大模型、智能体、硬件基础设施、跨行业应用等领域密集发布新品与技术突破，涵盖模型优化、智能体部署、硬件升级、落地场景拓展等多维度，同步伴随投资并购、政策监管、人才流动及伦理安全争议等行业动态。一、模型与技术突破 1.1 通用大模型（大语言模型与多模态模型） * 英伟达：发布开源模型Nemotron 3 Super，120B参数，混合Mamba-Transformer架构，原生支持100万token上下文，PinchBench得分85.6%（开源榜首）；采用NVFP4格式预训练，适配Blackwell架构，B200芯片推理速度达H100的4倍，吞吐量超上代5倍。 * xAI：发布Grok4.20，非幻觉率78%（创行业纪录），智能指数48分（较前代+6分），每百万令牌成本2-6美元；支持事实可靠推理，适用于严谨行业场景。 * 谷歌：发布Gemini Embedding 2，首个原生多模态嵌入模型，可将文本、

亲测Z-Image-Turbo：8步出图、16G显卡可用，AI绘画效果惊艳实录

亲测Z-Image-Turbo：8步出图、16G显卡可用，AI绘画效果惊艳实录 1. 这不是又一个“快一点”的模型，而是真正能用的生产力工具你有没有过这样的体验：打开一个AI绘图工具，输入提示词，满怀期待点下生成——然后盯着进度条数秒、十秒、甚至半分钟……最后出来的图，要么手多一只，要么建筑歪斜，要么文字糊成一团？ Z-Image-Turbo不是这样。我用它在一台RTX 4080（16GB显存）的机器上实测：从点击生成到图片保存完成，平均耗时2.3秒；生成过程仅需8次迭代（NFEs），不是“8步”噱头，是真实可验证的推理步数；输出图像分辨率达1024×1024，细节扎实，光影自然，中英文文字渲染清晰可读——比如“西安大雁塔”四个汉字，一笔一划完整嵌入夜景画面，不扭曲、不重影、不漏笔。这不是实验室里的参数游戏，而是一个你今天装好就能立刻投入日常创作的工具。它不挑硬件，不卡流程，

造相-Z-Image本地AI绘画：RTX 4090打造个人写实图像工作室

造相-Z-Image本地AI绘画：RTX 4090打造个人写实图像工作室 1. 这不是又一个SDXL套壳——Z-Image为什么值得你腾出显存？你是不是也试过：花半小时下载模型、改十次配置、调八遍参数，最后生成一张灰蒙蒙的图，还带着诡异的肢体扭曲？或者更糟——刚点“生成”，显存就爆了，控制台刷出一长串红色报错，连错误在哪都找不到。造相-Z-Image不是这样。它不包装旧模型，不堆砌插件，不做“兼容所有卡”的妥协。它从第一天起，就只为你桌面上那块沉甸甸的RTX 4090而生。这不是一句宣传语。当你把项目克隆下来、执行python app.py，它不会去网上拉模型权重，不会弹出一堆依赖报错，也不会要求你手动编译CUDA扩展。它直接从你指定的本地路径加载通义千问官方发布的Z-Image模型文件，30秒内完成BF16精度加载，UI界面自动弹出——你看到的第一个提示，是「模型加载成功 (Local Path)」。没有云服务、没有API密钥、没有后台上传。你的提示词不会离开显卡，你的草图不会传到服务器，你调试时删掉的17张失败稿，永远只存在你自己的SSD里。

无需翻墙！国内直连的3款AI绘画工具保姆级教程（含Stable Diffusion替代方案）

无需跨域，触手可及：面向国内创作者的AI绘画工具深度实践指南对于许多创意工作者和数字艺术爱好者而言，AI绘画工具的出现无疑打开了一扇新世界的大门。然而，当热情遭遇网络环境的现实壁垒，那份创作的冲动往往被复杂的配置和连接问题所冷却。我们理解，真正的灵感不应被技术门槛所束缚。因此，本文将聚焦于那些能够在国内网络环境下直接、稳定、高效运行的AI绘画解决方案。无论你是插画师、设计师、社交媒体内容创作者，还是纯粹对AI艺术充满好奇的探索者，这里没有晦涩的术语和繁琐的翻越步骤，只有从零开始、一步到位的实操指南。我们将深入探讨不同工具的特性、本地部署的优劣、云端服务的便捷，以及如何将这些工具无缝融入你的实际工作流，释放被压抑的创造力。 1. 核心工具选择：云端直连与本地部署的权衡在选择AI绘画工具时，我们首先需要明确两个核心路径：云端服务和本地部署。这两条路径在易用性、性能、隐私和成本上各有千秋，理解它们的区别是做出明智选择的第一步。云端服务通常以网页应用或轻量级客户端的形式提供。其最大优势在于 “开箱即用” 。你无需关心复杂的模型下载、显卡驱动或显存大小，只需一个浏览器，注册账号