智能家居联动：OCR识别药瓶标签提醒用药

优质文章学习记录

06 Apr 2026 — 8 min read

智能家居联动：OCR识别药瓶标签提醒用药

📖 技术背景与场景痛点

在现代家庭健康管理中，老年人或慢性病患者常常面临漏服、误服药物的问题。传统依赖人工记忆或纸质提醒的方式效率低、易出错。随着智能家居和AI技术的发展，构建一个自动识别药品信息并智能提醒用药的系统成为可能。

其中，核心挑战在于：如何从外观各异、光照条件复杂的药瓶标签上准确提取文字信息？这正是光学字符识别（OCR）技术的用武之地。而要实现家庭边缘设备上的实时响应，又必须兼顾模型精度与计算资源消耗。

本文将介绍一种基于 CRNN 模型的轻量级通用 OCR 服务，结合其 WebUI 与 API 能力，打造一套可落地的“药瓶标签识别 → 信息结构化 → 家庭助手提醒”的完整闭环方案。

👁️ 高精度通用 OCR 文字识别服务 (CRNN版)

核心架构与技术选型

本项目采用 CRNN（Convolutional Recurrent Neural Network） 架构作为核心识别引擎，部署于无GPU依赖的CPU环境，适用于树莓派、NAS、家用网关等低功耗设备。

为什么选择 CRNN？

相较于传统的 CNN + CTC 或纯端到端 Transformer 类模型，CRNN 在以下方面具备显著优势：序列建模能力强：通过 LSTM 层捕捉字符间的上下文关系，尤其适合中文连续文本识别。对模糊/倾斜文本鲁棒性强：卷积层提取空间特征后，RNN 自动学习字符顺序，减少因排版不规则导致的错别字。参数量小、推理快：整体模型大小控制在 10MB 以内，满足边缘部署需求。

我们基于 ModelScope 提供的经典 CRNN 实现进行二次优化，并集成图像预处理模块与 Flask 服务框架，形成完整的可交付镜像。

✨ 四大核心亮点详解

1. 模型升级：从 ConvNextTiny 到 CRNN 的精准跃迁

早期尝试使用轻量 CNN 模型（如 ConvNext-Tiny）进行药瓶标签识别时，发现其在以下场景表现不佳：

药名中含有生僻字或繁体字
标签印刷模糊、反光或有遮挡
字体过小（<8pt）

为此，切换至 CRNN 架构后，识别准确率提升约 37%（测试集为 500 张真实药瓶照片），尤其在“复方丹参滴丸”、“阿司匹林肠溶片”等长名称识别上表现稳定。

# 示例：CRNN 模型结构简写（PyTorch 风格） class CRNN(nn.Module): def __init__(self, num_classes): super().__init__() self.cnn = nn.Sequential( nn.Conv2d(1, 64, kernel_size=3, padding=1), nn.ReLU(), nn.MaxPool2d(2, 2), # ... 多层卷积提取特征 ) self.rnn = nn.LSTM(256, 128, bidirectional=True, batch_first=True) self.fc = nn.Linear(256, num_classes) def forward(self, x): x = self.cnn(x) # [B, C, H, W] -> [B, T, D] x = x.squeeze(-2) # 压缩高度维度 x, _ = self.rnn(x) return self.fc(x)

该模型输出的是每个时间步的字符概率分布，最终通过 CTC 解码得到完整文本。

2. 智能图像预处理：让模糊图片也能“看清”

药瓶拍摄常受光线、角度影响，直接送入模型会导致识别失败。我们在服务中内置了 OpenCV 图像增强流水线：

import cv2 import numpy as np def preprocess_image(image: np.ndarray) -> np.ndarray: """标准化图像预处理流程""" # 1. 灰度化 if len(image.shape) == 3: gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) else: gray = image # 2. 自适应直方图均衡化（CLAHE） clahe = cv2.createCLAHE(clipLimit=2.0, tileGridSize=(8,8)) enhanced = clahe.apply(gray) # 3. 双边滤波去噪 denoised = cv2.bilateralFilter(enhanced, 9, 75, 75) # 4. 图像锐化 kernel = np.array([[0, -1, 0], [-1, 5, -1], [0, -1, 0]]) sharpened = cv2.filter2D(denoised, -1, kernel) # 5. 尺寸归一化（宽×高 = 256×32） resized = cv2.resize(sharpened, (256, 32), interpolation=cv2.INTER_AREA) return resized

这套预处理链路使得原本模糊不清的“硝苯地平控释片”标签，在增强后清晰可辨，显著提升了边缘场景下的可用性。

3. 极速推理：CPU环境下平均响应 <1秒

针对家庭设备普遍缺乏独立显卡的特点，我们对模型进行了深度 CPU 优化：

使用 ONNX Runtime 替代原始 PyTorch 推理引擎
启用 ort.SessionOptions() 中的图优化选项（如常量折叠、算子融合）
开启多线程并行（intra_op_num_threads=4）

| 推理引擎 | 平均延迟（Intel i5-1135G7） | 内存占用 | |--------|--------------------------|---------| | PyTorch | 1.48s | 890MB | | ONNX Runtime | 0.82s | 620MB |

💡 实测表明：即使在树莓派 4B（4GB RAM）上，单次识别也仅需 2.1 秒，完全满足日常使用需求。

4. 双模支持：WebUI + REST API 自由调用

为适配不同使用场景，系统同时提供两种交互方式：

可视化 WebUI：适合调试与演示，用户上传图片即可查看识别结果
标准 REST API：便于与其他智能家居系统（如 Home Assistant、小米米家）集成

🔧 API 接口定义

POST /ocr/predict Content-Type: multipart/form-data Form Data: - image: <file>

返回示例：

{ "success": true, "text": ["硝苯地平控释片", "每片30mg", "每日一次，每次一片"], "confidence": 0.92, "time_used_ms": 820 }

此接口可被 Node-RED、IFTTT 或自定义脚本轻松调用，实现自动化工作流。

🏠 应用实践：构建“药瓶识别+智能提醒”系统

整体架构设计

我们将 OCR 服务嵌入智能家居中枢，形成如下闭环：

[手机拍照] ↓ [上传至本地 OCR 服务] ↓ [提取药品名称 & 用法用量] ↓ [结构化解析 → 存入数据库] ↓ [定时任务比对当前时间] ↓ [触发语音提醒（音箱/APP推送）]

关键代码实现

1. OCR 结果解析与结构化

import re from datetime import datetime, timedelta def parse_med_info(text_lines: list) -> dict: """解析OCR结果，提取药品关键信息""" info = { "name": "", "dosage": "", # 剂量 "frequency": "", # 频次 "schedule": [] # 提醒时间点 } for line in text_lines: line = line.strip() # 匹配药品名（常见关键词） if any(kw in line for kw in ["片", "胶囊", "口服液", "注射液"]): if not info["name"]: info["name"] = line # 匹配剂量说明 dosage_match = re.search(r"每片(\d+mg)", line) if dosage_match: info["dosage"] = dosage_match.group(1) # 匹配服用频次 if "每日一次" in line: info["frequency"] = "once_daily" info["schedule"] = ["08:00"] elif "每日两次" in line: info["frequency"] = "twice_daily" info["schedule"] = ["08:00", "20:00"] return info

2. 与 Home Assistant 联动示例（通过 webhook）

# configuration.yaml automation: - alias: "提醒服用降压药" trigger: platform: time at: "08:00:00" condition: condition: template value_template: "{{ states('sensor.current_medicine') == '硝苯地平控释片' }}" action: service: notify.mobile_app_myphone data: message: "该吃药啦！请服用硝苯地平控释片（30mg）"

3. 自动化流程编排（Node-RED 示例）

[ { "id": "http-in", "type": "http in", "url": "/upload-pill", "method": "post" }, { "id": "call-ocr", "type": "http request", "method": "POST", "url": "http://localhost:8080/ocr/predict", "pay": "req.form.image" }, { "id": "parse-result", "type": "function", "func": "// 调用 parse_med_info 函数解析结果\n..." }, { "id": "set-timer", "type": "cron-plus", "action": "schedule", "rule": "0 8,20 * * *" } ]

⚠️ 实践难点与优化建议

尽管系统已具备较高实用性，但在真实环境中仍需注意以下问题：

| 问题 | 原因 | 解决方案 | |------|------|-----------| | 手写标签识别不准 | 训练数据未覆盖手写体 | 加入手写样本微调模型最后一层 | | 多语言混杂（英文+拼音） | 字典未包含拼音组合 | 扩展词典或启用混合语言模式 | | 光照反射造成误识别 | 图像局部过曝 | 增加偏振滤镜或引导用户调整角度 | | 长时间运行内存泄漏 | Flask 缓存未清理 | 定期重启服务或启用 gunicorn + worker 管理 |

✅ 最佳实践建议：首次使用前建立药品库：手动校正一批常用药，形成模板匹配库，提高后续识别稳定性。设置双重确认机制：识别后弹窗让用户确认药品名称，避免误操作。离线优先策略：所有数据保留在本地网络，保障隐私安全。

🎯 总结与展望

本文围绕“OCR识别药瓶标签提醒用药”这一典型智能家居应用场景，详细介绍了基于 CRNN 模型的轻量级 OCR 服务的技术原理、工程实现与系统集成路径。

核心价值总结

高精度识别：CRNN 模型显著优于传统 CNN，在复杂药瓶标签上表现稳健。
低门槛部署：无需 GPU，可在普通 NAS 或开发板运行，适合家庭场景。
开放接口设计：WebUI + API 双模式，易于与主流智能家居平台对接。
端到端闭环：从图像输入到语音提醒，真正实现“拍一下就记住”。

未来扩展方向

支持二维码/条形码联合识别：补充OCR信息缺失场景
加入药品知识图谱：自动查询禁忌症、相互作用等健康提示
多用户身份识别：结合人脸识别区分家庭成员用药计划
联邦学习更新模型：在保护隐私前提下持续优化识别能力

智能家居的本质不是炫技，而是让科技无声地守护生活。一瓶药的识别背后，是对家人健康的长久牵挂。

智能家居联动：OCR识别药瓶标签提醒用药

优质文章学习记录