69元!爆改百度小度音箱,适配小智AI,接入DeepSeek、豆包、Qwen、元宝大模型

文末联系小编,获取项目源码

小度蓝牙智能音箱基于小智AI 源码二次开发,使用ESP32S3R8控制板、外置16M NOR FLASH 双麦克风、 AXP173电源管理芯片,得益于小度的5W大腔体,音质非常的不错。

小度蓝牙音箱,3个实体按键,从左到右为电源和音量+键,唤醒键,音量-键5W音腔喇叭,500MA电池。为更好的发挥大音腔喇叭,采用了自带升压的功放芯片,大音量功耗较大平时建议音量在60%以内,电池供电在低电量大音量下,可能会触发电源芯片保护关机!

改造后,小度蓝牙音箱按键使用方式:

  • 左键:短按 开机键 开机,长按4s关机键关机。
  • 播放声音中:短按音量+,长按不要超过4S 最大音量
  • 中键:boot键 说话键 打断键
  • 右键:音量-键


小智AI 改造方案 

硬件相关基本参数

  • ESP32-S3R8
  • 16MB NOR FLASH
  • ES8311
  • ES7210
  • NS4830
  • ZTS6216 MEMS麦克风*2
  • 12pin 屏幕接口 ST7789 驱动
  • 1.25喇叭和电池插座
  • Typec 充电和烧录接口
  • 预留串口插针

重新烧录自编译固件:

1.下载附件中的代码,覆盖到完整项目代码中

2.编辑main/CMakeLists.txt文件在  # 根据 BOARD_TYPE 配置添加对应的板级文件  下添加如下代码

elseif(CONFIG_BOARD_TYPE_JIANGLIAN_S3)

    set(BOARD_TYPE "jianglian-s3")

3.编辑main/Kconfig.projbuild文件在  #Board type. 开发板类型  下添加如下代码

    config BOARD_TYPE_JIANGLIAN_S3

    bool "匠联未来·ESP32-S3"

在config USE_DEVICE_AEC 中添加 BOARD_TYPE_JIANGLIAN_S3

4.按照官方编译方式进行编译,版子进入menuconfi 选择 匠联未来·ESP32-S3

原理图

PCB板

开源小智AI聊天机器人项目 

图片


小智AI聊天机器人是一款基于乐鑫ESP32-S3核心板,搭载多种开源AI大模型( DeepSeek、OpenAI 、通义Qwen),通过对话角色自定义、海量知识库、长期记忆、语音声纹识别等功能。它不仅是智能工具,更是一个真正“懂你”的AI助理,致力于为每一天增添温暖和便利。无论是在解决问题还是分享快乐,小智AI聊天机器人都以独特的智慧和温柔的方式,使科技更加有温度,生活更美好。

  • 通信协议基于 xiaozhi-esp32 协议,通过 WebSocket 实现数据交互。
  • 对话交互支持唤醒对话、手动对话及实时打断。长时间无对话时自动休眠
  • 多语言识别支持国语、粤语、英语、日语、韩语(默认使用 FunASR)。
  • LLM 模块支持灵活切换 LLM 模块,可选阿里通义Qwen、DeepSeek、OpenAI 等
  • TTS 模块支持 EdgeTTS(默认)、火山引擎豆包 TTS 等多种 TTS 接口,满足语音合成需求。
图片

语音交互系统

  • • 支持中文、粤语、英语等多语言语音识别
  • • 高质量语音合成输出,支持多种音色
  • • 声纹识别功能,可识别不同说话者

智能对话能力

• 集成 Qwen2.5 大语言模型

• 支持上下文理解和对话记忆

• 可自定义对话风格和人设

硬件功能

  • •支持 Wi-Fi 和 4G 双网络接入
  • • OLED/LCD 屏幕显示交互内容
  • • 按键唤醒和打断功能
  • • 支持多款主流开发板

拓展性与定制

  • • 开放的插件系统,支持功能扩展
  • • 可自定义提示词和对话模板
  • • 支持脚本化任务处理

 小智AI聊天机器人服务端源码  

图片

服务端每个功能模块采用独立的目录,便于开发和维护,提高系统的可扩展性和可维护性。

  • asr-server+asr-worker:提供语音活动监测、语音转文本、说话人识别等服务;
  • tts-server:提供音色管理、音色克隆、语音合成等服务,对接本地部署的语音模型;
  • main-server:主服务,负责协调语音识别、大模型、语音合成等各种服务,并对接后端数据库。

小智AI 后台服务端功能清单

功能模块

描述

核心服务架构

基于WebSocket和HTTP服务器,提供完整的控制台管理和认证系统

语音交互系统

支持流式ASR(语音识别)、流式TTS(语音合成)、VAD(语音活动检测),支持多语言识别和语音处理

智能对话系统

支持多种LLM(大语言模型),实现智能对话

视觉感知系统

支持多种VLLM(视觉大模型),实现多模态交互

意图识别系统

支持LLM意图识别、Function Call函数调用,提供插件化意图处理机制

记忆系统

支持本地短期记忆、mem0ai接口记忆,具备记忆总结功能

工具调用

支持客户端IOT协议、客户MCP协议、服务端MCP协议、MCP接入点协议、自定义工具函数

管理后台

提供Web管理界面,支持用户管理、系统配置和设备管理

测试工具

提供性能测试工具、视觉模型测试工具和音频交互测试工具

部署支持

支持Docker部署和本地部署,提供完整的配置文件管理

插件系统

支持功能插件扩展、自定义插件开发和插件热加载

小智AI 服务端组件

LLM 语言模型:任何支持 openai 接口调用的 LLM 均可接入使用。

图片

VLLM 视觉模型:任何支持 openai 接口调用的 VLLM 均可接入使用。

图片

TTS 语音合成模块

图片

ASR 语音识别模块

图片

Memory 记忆存储模块

图片

Intent 意图识别模块

图片

如有IoT 源码采购和项目交付需求,请扫码联系小编,微信号: beacon0418

图片
图片

往期推荐

乐鑫ESP32+豆包智能AI聊天机器人

一周赚2万,搞定智慧农业项目交付

源码交付 IoT智慧水务、污水处理

这才是老板想要的IoT可视化大屏

上班摸鱼, 智能AI 监控老板行踪

图片
图片

免责声明:本公众号所发布的内容来源于互联网,我们会尊重并维护原作者的权益。由于信息来源众多,若文章内容出现版权问题,或文中使用的图片、资料、下载链接等,如涉及侵权,请告知我们,我们将尽快处理。

Read more

【AIGC行业前沿】2026年2月AIGC行业模型发布以及主要前沿资讯

目录 1. 阿里Qoder发布Qwen-Coder-Qoder 2. Kimi与南大发布SimpleSeg赋能模型像素感知 3. 字节研究团队发布ConceptMoE提升AI推理 4. 阶跃星辰发布并开源模型Step 3.5 Flash 5. 智谱发布并开源OCR模型GLM-OCR 6. xAI正式发布Grok Imagine 1.0视频模型 7. 优必选开源具身智能大模型Thinker 8. 通义千问发布开源编程模型Qwen3-Coder-Next 9. OpenAI宣布GPT-5.2系列模型提速40% 10. OpenBMB发布多模态模型MiniCPM-o 4.5 11. ACE Studio与StepFun联合发布开源音乐模型ACE-Step 1.5 12. Ai2发布轻量级开源编码模型SERA-14B 13. 上海AI实验室推出万亿参数多模态科学推理模型Intern-S1-Pro 14. Mistral AI开源40亿参数实时语音模型Voxtral Mini 4B Realtime 2602 15. 快手可灵发布可灵3.0 1

在Windows11利用llama.cpp调用Qwen3.5量化模型测试

1.下载llama.cpp二进制文件 访问 https://github.com/ggml-org/llama.cpp/releases 或者 https://bgithub.xyz/ggml-org/llama.cpp/releases 选择适合自己平台的。我没有独立显卡,所以选择CPU版本 https://bgithub.xyz/ggml-org/llama.cpp/releases/download/b8192/llama-b8192-bin-win-cpu-x64.zip 解压到\d\llama8\目录。 2.下载量化模型 按照 章北海mlpy 公众号:Ai学习的老章~ID:mindszhang666 写的知乎文章Qwen3.5 0.8B/2B/

告别996:GitHub Copilot将我的开发效率提升300%的实战记录

告别996:GitHub Copilot将我的开发效率提升300%的实战记录

👋 大家好,欢迎来到我的技术博客! 📚 在这里,我会分享学习笔记、实战经验与技术思考,力求用简单的方式讲清楚复杂的问题。 🎯 本文将围绕AI这个话题展开,希望能为你带来一些启发或实用的参考。 🌱 无论你是刚入门的新手,还是正在进阶的开发者,希望你都能有所收获! 文章目录 * 告别996:GitHub Copilot将我的开发效率提升300%的实战记录 * 引言:从疲惫到高效 * 什么是GitHub Copilot?🤖 * 效率提升300%的核心场景 * 1. 快速生成样板代码 * 2. 自动编写单元测试 * 3. 智能调试与注释 * 集成Copilot到工作流 * 步骤1:设置合理的期望 * 步骤2:结合IDE使用 * 步骤3:代码审查与调整 * 高级用法:超越代码生成 * 数据库查询优化 * API接口设计 * 正则表达式助手 * 数据支撑:效率提升分析 * 避坑指南:常见问题与解决 * 1. 可能生成过时或不安全代码

【AIGC】Claude Code的三大模式

Claude Code 主要有三大核心权限/执行模式(默认、自动编辑、计划),以及思考强度模式、危险模式等辅助模式。 一、三大核心执行模式(权限控制) 这是最常用的三种模式,控制 Claude 对文件与命令的自动化程度,可通过 Shift+Tab 循环切换。 1. 默认模式(Normal / Manual Approval) * 状态栏:? for shortcuts * 行为:每次文件编辑、命令执行前都需要你手动批准(Y/N/跳过) * 适用:学习阶段、不熟悉的项目、重要/敏感修改、需要精细控制 * 特点:最安全、掌控感最强,但效率较低 2. 自动编辑模式(Auto-Accept / Accept Edits) * 状态栏: