春节寒假作业辅导：基于 Rokid 灵珠平台打造 AI Glasses 作业助手

优质文章学习记录

11 Apr 2026 — 11 min read

本文应用基于Rokid灵珠智能体/CXR SDK开发，开发指南https://forum.rokid.com/index

文章目录

一、引言：为什么我们需要一个 AI Glasses 作业助手？
二、方案设计与架构
三、开发实战：手把手搭建“作业救星”
四、总结

一、引言：为什么我们需要一个 AI Glasses 作业助手？

春节假期本是阖家团圆的日子，但对于很多家长来说，“辅导寒假作业”往往是打破祥和气氛的导火索。面对孩子“这题怎么做”的灵魂拷问，家长们常常面临两个痛点：

知识遗忘：当年的学霸面对现在的奥数题也可能束手无策。
情绪失控：反复讲解听不懂，容易血压飙升。

传统的搜题 App 需要掏出手机、拍照、上传，不仅打断孩子思路，还容易让孩子分心玩手机。而 Rokid Glasses 的第一视角采集与实时语音交互特性，天然适合作为“随身家教”——看着题就能问，边看边讲解。

本文将详细介绍如何利用 Rokid 灵珠 AI 平台 的零代码/低代码能力，快速搭建一个具备 “识题讲解、知识点回顾、错题整理” 的 AI Glasses 应用（形态为：智能体 + 工作流，可在眼镜端使用）。

二、方案设计与架构

2.1 核心功能定义

我们希望打造一个名为 “作业救星 (Homework Savior)” 的智能体，它具备以下能力：

👁️ 视觉识别：通过眼镜摄像头捕捉作业题目（支持手写体/印刷体）。
🧠 深度推理：不直接给出答案，而是分析题目考察的知识点，提供分步解题思路。
📚 知识挂载：针对特定学科（如初中几何、物理公式），挂载专属知识库以提高准确率。
🗣️ 情感交互：以“温柔耐心的学霸哥哥/姐姐”口吻进行语音讲解，安抚孩子情绪。

2.2 端到端架构（AI Glasses）

请求

触发

卡片+语音

Rokid Glasses
语音+第一视角

灵珠智能体

工作流

多模态理解
OCR/题干提取

知识库检索
公式/定理/例题

推理生成
引导式讲解

2.3 业务流程架构

利用 Mermaid 绘制的业务流程图如下：

多模态大模型知识库 (Knowledge Base)工作流 (Workflow)灵珠 AI 平台 (Agent)用户 (Rokid Glasses)多模态大模型知识库 (Knowledge Base)工作流 (Workflow)灵珠 AI 平台 (Agent)用户 (Rokid Glasses)阶段一：视觉理解与意图识别阶段二：知识检索与推理语音指令："这道几何题怎么做？" + 拍摄题目图片触发主工作流 (Input: Query + Image)调用视觉模型 (OCR + 题目提取)返回题目文本 & 关键几何条件检索相关公式/定理 (如"勾股定理")返回Top3相关知识片段Prompt: 结合题目+知识点，生成分步讲解思路返回结构化的讲解文本 (非直接答案)输出最终讲解内容语音播放讲解 + 屏幕显示关键公式

三、开发实战：手把手搭建“作业救星”

3.1 准备工作

准备 3 份测试题目（建议各 1 份：几何、方程、应用题），用于验证不同题型表现。
准备一份“初中数学公式/定理”材料（PDF/Markdown/网页内容均可），用于构建知识库。
确保眼镜与手机已完成基础配对/联网，并能在眼镜端打开灵珠平台相关入口。

3.2 步骤一：创建知识库（资源准备）

上传/粘贴内容并切分为适合检索的片段（建议按“定理名 + 公式 + 适用条件 + 例题提示”组织）
进行一次检索自测：输入“勾股定理”“相似三角形判定”等关键词，确认能命中对应片段。

进入左侧导航的 “资源” -> “知识库”，创建知识库：初中数学公式与定理。

3.3 步骤二：创建智能体（Agent）

基本信息配置：
- 名称：作业救星
- 简介：你的寒假作业辅导老师，只讲思路不给直接答案

人设与回复逻辑（Prompt）：在对应区域输入提示词：

# Role 你是一位耐心、幽默且知识渊博的清华学霸家教。你的目标是辅导初中生完成寒假作业。 # Constraints 1. 🚫 **严禁直接给出最终答案**（如“选A”或“等于5”）。 2. ✅ 必须采用**引导式教学**：先分析题目考点，再提供第一步思路，引导学生思考下一步。 3. 🗣️ 语言风格：轻松活泼，多用鼓励性话语（如“这点很棒！”“别急，我们慢慢来”）。 4. 📐 如果涉及数学公式，请用 LaTeX 格式输出，方便眼镜端渲染（或转为自然语言描述）。 # Skills 1. 擅长识别手写体题目。 2. 能将复杂的物理/数学概念用生活中的例子类比。

在灵珠平台首页点击 “创建智能体”。

3.4 步骤三：搭建核心工作流（Workflow）

为了处理复杂的“识图+检索+推理”逻辑，我们需要使用工作流而非简单的单轮对话。

进入 “开发工作流” -> “创建工作流”。

3.4.1 变量与节点命名

灵珠平台的工作流画布里，开始节点默认会提供两类输入：

USER_INPUT：文本输入（用户的提问/指令）
USER_INPUT_IMAGE：图片输入（用户当前视角拍摄的题目图）

结束节点通常输出：

题干提取：负责 OCR/题面结构化
知识库检索：负责从知识库召回相关定理/公式

output：工作流最终输出（返回给智能体/眼镜端展示与播报）

为了让提示词里引用变量更直观，建议把两个关键节点命名为：

节点编排（示例）

开始节点（默认输入）：
- USER_INPUT（用户问题）
- USER_INPUT_IMAGE（题目图片）
题干提取（大模型/多模态）：
- 输入：USER_INPUT_IMAGE
- Prompt：请提取图片中的题目文字；若含几何图，请用要点描述图形关系与已知条件。
知识库检索：
- Query：使用 题干提取 的输出（题目文本）
- 配置：选择我们提前创建的 初中数学公式与定理 知识库
- Top K：设置为 3（可按效果调到 5）
大模型推理节点 (LLM Generation)：
- 模型选择：选择推理能力强的模型
结束节点：
- 输出变量：将大模型推理节点输出映射到 output

System Prompt：

你收到了一个学生的提问和一道题目。 题目内容：{{题干提取.output}} 参考知识点：{{知识库检索.output}} 用户问题：{{USER_INPUT}} 请结合参考知识点，为学生讲解这道题，采用引导式教学，不要给出最终答案或最终数值结果。 如果识别到的题干不完整/关键信息缺失： 先用一句话复述你识别到的题干，并告诉用户需要补充拍清楚哪些信息，然后停止输出讲解。 否则请严格按以下结构输出（每段控制简短，方便眼镜端显示与语音播报）： 【考点】一句话概括 【第一步】先做什么（给出一个可执行的小步骤） 【下一步提示】给一个追问或提示，推动学生继续 【自检问题】给 1 个让学生自检的简单问题

3.4.2 输出格式（便于 AI Glasses 展示）

为了保证“眼镜端一眼能看懂、语音也不啰嗦”，建议把工作流最终输出固定为四段结构

【考点】相似三角形判定与比例关系 【第一步】先在图中找出两组对应角（或平行线形成的内错角），判断能否构成相似 【下一步提示】如果能判定相似，对应边成比例，这一步你准备写出哪两条边的比例？ 【自检问题】你能说出“相似”的两个三角形分别是哪两个吗？

3.4.3 验收用例

下面这张表是我自己用于“发布前验收”的最小集合。

用例	题目类型	画面条件	用户问题示例	期望输出（检查点）
TC-01	几何（有图）	光线正常	这题第一步怎么看？	能说出考点；不报答案；给出可执行第一步
TC-02	方程（印刷体）	光线正常	帮我分析思路	结构化四段；第一步是列式/移项等
TC-03	应用题（文字多）	题干完整	先帮我提取已知条件	能复述条件；提示设未知数；不直接算结果
TC-04	手写体	字迹清晰	我卡在第二步了	能追问缺失信息；或给下一步提示推动思考
TC-05	模糊/反光	题干缺失	你看得清吗？	先复述识别到的内容；要求重拍；停止讲解
TC-06	“诱导要答案”	题干完整	直接告诉我答案	仍不报答案；改为给思路与自检问题

调试工作流
- 点击“试运行”
- 上传一张勾股定理的题目图片
- 输入问题：“这道题怎么求斜边？”
- 观察输出是否包含“根据勾股定理 (a^2+b2=c^2)”等引导性内容

3.5 步骤四：发布并在眼镜端体验（AI Glasses 闭环）

回到智能体配置页，在 “能力配置” -> “工作流” 中绑定刚才发布的“作业辅导工作流”。
点击 “发布”，将权限设置为自己可用
眼镜端体验流程：
- 佩戴 Rokid Glasses，打开灵珠相关入口并唤起“作业救星”
- 注视作业题目，语音说：这道题我不会做，先告诉我第一步怎么想
- 等待结果在眼镜端输出：优先展示“考点 + 第一步 + 关键公式”，并语音讲解

四、总结

通过 Rokid 灵珠平台，我们用“智能体 + 工作流 + 知识库”的方式，快速搭建出一个具备 多模态理解 与 引导式讲解 能力的 AI Glasses 应用。它既能缓解春节期间的家庭作业辅导压力，也能展示“AI 在穿戴设备上落地”的价值：更自然的语音交互、更顺畅的所见即问、以及更专注的学习体验。

下一步计划：
尝试接入 Agent 记忆能力，让它能记住孩子容易做错的题型，下次遇到类似题目时主动提醒：“这道题和你上次做错的那道很像哦，要注意陷阱！”