开源AI桌宠AIRI完整部署指南

开源AI桌宠AIRI完整部署指南
本文手把手记录了 AIRI 的快速部署全流程:从设置中文界面、接入阿里百炼 API,到配置本地 TTS 服务,适合想低成本体验多模态 AI 桌宠的普通用户。

序言

最近在用一个叫 AIRI 的开源 AI 项目,部署简单、还能生成一个可调形象的桌面桌宠。我花了一整天_time_实测了从模型接入、TTS 语音、到跨平台联动的全过程——没有花哨概念,只有真实可用的细节。如果你也想拥有一个能聊天、会说话、还能接入 Discord 或游戏的“数字伙伴”,这篇就是你想要的落地指南。

演示

该项目支持ios、windwos、linux下载,看清型号配置点击下载即可安装,下载链接放在文章最后了。

637


打开软件,桌面上就会出现一个桌宠,这里的形象、大小都是可以调整的,感兴趣的可以尝试自定义,可以先连接上大模型再优化这个形象。

在设置>外观>通用>选择语言,切换成中文,然后重启应用即可生效,启动安全连接WebSocket是开启AIRI的实时加密通信,可以把Web版安装成手机APP


在模型提供商里可以选择很多服务商,如果电脑配置够的话可以选择ollama跑一个开源的qwen3.5 27B是最佳选择,如果配置不够可以调用api。

这里我使用的是阿里百炼的API,新出的套餐每月18000次调用,新用户才7块钱一个月,用处还是挺大的,使用下面链接还能领到10元优惠券:https://www.aliyun.com/benefit/ai/aistar?userCode=d5a2juv7&clubBiz=subTask…12391167…10263…

在设置中提供商里找到chat模型,这里面没有百炼或者千问的,但是这里可以选择minimax,软件虽然带了OpenAI Compatible兼容openai的选项,我测试了暂时不支持百炼的api。


接入模型后,这里就可以测试了,让她介绍一下自己,还是很可爱的。


在卡片编辑里可以设置角色的身份,描述它的是什么样子的以及它的行为等。

安装语音工具

我没有选择调用语音模型,如果为了方便省事可以去调用TTS模型的API,也可以在huggingface上下载Kokoro-82M这个模型,在这里使用的是一个开源的工具openai-edge-tts,这是一个免费的 OpenAI TTS 仿真器,下面是安装过程,下载连接放在文章最后了


下面这张图是安装环境,然后启动/app/server.py文件,这里出现Server running on http://localhost:5050 ,这个就可以了


回到AIRI,选择设置,在语音设置中填入http://localhost:5050/v1,注意这里不需要后面/audio/speech,API密钥随便填就可以了,因为上面的配置已经把API_KEY的验证给关闭了。


然后回到对话里就可以听到她的声音了,因为是免费的TTS,声音比较一般,对声音有要求的可以试试调用minimax或者百炼的TTS模型。

在设置里选择机体模块,这里可以配置连接Discord、X、我的世界、异星工厂,我这里虽然配置了Discord,里面只要填入一个Bot-token,比openclaw配置还要简单。剩下的我没有配置,有感兴趣的朋友可以自己试试。

总结

这个开源项目发布到现在时间还很短,但是官方的更新维护频率特别高,而且开源社区也很活跃,相信不久之后这个项目一定能更好,如果你也在找一个蹲在你桌面上、和你聊天的AI桌宠、虚拟伴侣,可以考虑这个开源项目。

项目开源链接:
https://github.com/moeru-ai/airi/releases/tag/v0.9.0-alpha.1
https://github.com/travisvn/openai-edge-tts

Read more

解密微信视频号WebAssembly加密:从逆向到实现的完整指南

解密微信视频号WebAssembly加密:从逆向到实现的完整指南 最近在研究一些视频平台的资源获取方式时,不可避免地遇到了微信视频号。和许多开发者一样,最初的想法是寻找一个现成的工具,比如在GitHub上颇有名气的WeChatVideoDownloader。它的代理思路很巧妙,但很快我就发现,直接下载下来的视频文件打不开了——文件头不对劲,播放器完全不认。这显然不是网络问题,而是视频数据本身被动了手脚。微信给视频号内容加上了一层加密,这对于想要深入研究其技术实现,或者有合法合规的离线分析需求的开发者来说,成了一个必须跨过的门槛。这篇文章,就是记录我如何一步步拆解这层加密外壳,并最终实现完整解密流程的旅程。整个过程涉及对前端JavaScript的调试、对WebAssembly模块的逆向分析,以及对特定随机数生成算法的理解,目标读者是那些对WebAssembly、加密算法和浏览器逆向有浓厚兴趣,并愿意动手实践的技术爱好者。 1. 现象探查与加密特征分析 当你从视频号下载一个视频文件,用十六进制编辑器打开它的头部,第一眼就会发现问题。一个正常的MP4文件,其文件头通常以清晰的ftyp

AI在前端工作中的应用

AI在前端工作中的应用 在AI的高速发展中,也离不开前端,前端开发也在AI工具中发挥着举足轻重的作用。同时,一些AI工具也是的前端开发工作提效不少,合理利用工具,能在工作中提升效率。本文介绍一些前端与AI结合的场景,不限于接入,也包含一些工具的使用。 1、自定义GPT场景 在自定义 GPT 场景中,前端的核心职责是搭建 “用户 - 自定义 GPT” 的交互入口,同时支撑 GPT 的个性化配置、功能扩展与数据可视化,需围绕 “交互体验、配置能力、集成适配” 三大核心展开工作。 ant-design提供给前端开发者快速开发AI相关的UI组件库:https://ant-design-x.antgroup.com * SSE SSE是一种基于HTTP协议的数据传输方式,它允许服务端向客户端推送数据。前端可以通过SSE实现GPT的实时对话,用户输入问题,GPT返回结果。为什么选择这种方式,是因为GPT返回结果是很漫长的,所以用流式传入,能让用户体验更友好,不用websocket是因为长连接占用资源过多,服务器长连接数有限,所以用SSE。 可以直接使用微软的SSE库:

Android集成WebRTC与VAD的AI辅助开发实战:从选型到性能优化

快速体验 在开始今天关于 Android集成WebRTC与VAD的AI辅助开发实战:从选型到性能优化 的探讨之前,我想先分享一个最近让我觉得很有意思的全栈技术挑战。 我们常说 AI 是未来,但作为开发者,如何将大模型(LLM)真正落地为一个低延迟、可交互的实时系统,而不仅仅是调个 API? 这里有一个非常硬核的动手实验:基于火山引擎豆包大模型,从零搭建一个实时语音通话应用。它不是简单的问答,而是需要你亲手打通 ASR(语音识别)→ LLM(大脑思考)→ TTS(语音合成)的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说,这是个绝佳的练手项目。 从0到1构建生产级别应用,脱离Demo,点击打开 从0打造个人豆包实时通话AI动手实验 Android集成WebRTC与VAD的AI辅助开发实战:从选型到性能优化 移动端实时语音处理一直是个技术难点。根据实测数据,普通Android设备处理16kHz采样率的音频流时,仅WebRTC基础通话就会占用12-15%的CPU资源,如果再加上VAD检测,CPU占用可能飙升到25%以上。更棘手的是,从麦克风采集到

用AI快速生成MC.JS WEBMC 1.8.8 PLUS MOBILE游戏插件

快速体验 1. 打开 InsCode(快马)平台 https://www.inscode.net 2. 输入框内输入如下内容: 请生成一个适用于MC.JS WEBMC 1.8.8 PLUS MOBILE的JavaScript游戏插件代码。要求包含以下功能:1) 实现基本的方块破坏和放置功能;2) 添加移动端触控支持;3) 包含简单的物品栏系统;4) 支持1.8.8版本的特性。代码需要兼容移动设备浏览器,并做好性能优化。请使用模块化设计,注释清晰,并提供简单的使用说明文档。 1. 点击'项目生成'按钮,等待项目生成完整后预览效果 最近在折腾一个MC.JS WEBMC 1.8.8 PLUS