别在自己造轮子了！推荐一款功能炸裂的开源人工智能解决方案，内置产品级IOC、以图搜图，人像搜索

Ne0inhk

23 Mar 2026 — 7 min read

💂 个人网站:IT知识小屋🤟 版权: 本文由【IT学习日记】原创、在ZEEKLOG首发、需要转载请联系博主💬 如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦

文章目录

简介
开发环境
功能模块
开源地址&使用手册
写在最后

简介

本项目是一款依托于JAVA实现的通用人工智能解决方案，涵盖了模型训练、推理到Web/桌面应用的一整套AI功能。支持产品级OCR文字识别(可自定义模板)、图像搜索、人脸检索、智能抠图、照片上色、图像增强、机器翻译、RAG搜索以及大模型接入等，可开箱即用。

系统采用主流技术栈：SpringBoot + Vue搭建，后端使用SpringBoot提供API服务，前端基于Vue实现可视化管理，支持模块化部署和二次开发。项目代码完全开源，模块之间高度解耦，用户可按需引入，灵活扩展，特别适合需要快速集成 AI 功能的企业与个人开发者。

开发环境

CPU Windows x64, Linux x64, macOS x64 GPU (CUDA) Windows x64, Linux x64

模型下载：https://pan.baidu.com/s/16933J3dX16xnjbYaay-4og?pwd=cwxk

功能模块

1、AI训练平台【模型定制】

项目位置：/2_training_platform
使用人群：面向java程序员，满足图像识别分类定制化需求
功能清单：支持图像分类模型训练、支持图像1:1

数据上传：

超参数配置：

训练可视化：

2、AI Web应用

 - 项目位置：/4_web_app - 技术栈：前端VUE，后端Springboot - 使用方式：可直接部署使用，使用UI或者调用API集成到现有的系统中 - 功能清单：图像生成、人脸搜索、以图搜图、以文搜图、一键抠图、文本搜索、图像生成

OCR：自定义模版识别(项目位置：/4_web_app/iocr)

参照锚点设置

内容识别区设置

以图搜图

 - 项目位置：/4_web_app/image_search,一共提供了三个不同的版本 - 无向量引擎的版本，适合100万图片以下：mini_image_search - 向量引擎的版本，无管理系统的精简版：simple_image_search - 向量引擎的版本，完整的产品级应用：image_search

图片上传：支持服务器端文件夹上传(大量图片使用，如千万张图片入库)、提取人脸特征方式、支持客户端文件夹上传

图像搜索

跨模态：以文搜图，以图搜图

 - 项目位置：/4_web_app/image_text_search，提供了2个不同的版本 - 无向量引擎的版本，适合100万图片以下：mini_image_text_search - 向量引擎的版本，适合100万图片以上：image_text_search

图片上传：提取特征

以文搜图：输入文本如：雪地上两只狗
以图搜图

人脸搜索

 - 项目位置：/4_web_app/face_search

上传图片：点击提取人脸特征按钮

人脸搜索

一键抠图

 - 项目位置：/4_web_app/image_seg,提供了2个不同的版本 - 一键抠图完整版，包含：框选一键抠图，通用一键抠图，人体一键抠图，动漫一键抠图：image_seg - 框选一键抠图：image_seg_sam2

框选一键抠图

框选一键抠图

文本搜索

 - 项目位置：/4_web_app/text_search,提供了2个不同的版本 - 随时对数据进行插入、删除、搜索、更新等操作,结合大模型实现RAG功能,根据需要替换其它的特征提取模型：1_sdks\2_nlp_sdks\embedding - 无向量引擎的版本，适合100万条数据以下：simple_text_search - 向量引擎的版本，适合100万条数据以上：text_search

上传数据：点击提取特征按钮

文本搜索

图像生成

 - 项目位置：/4_web_app/aigc_image_gen - 图像生成模型链接: https://pan.baidu.com/s/1znJi092mth3z68Oq_j2lsA?pwd=dmra - 预处理模型链接: https://pan.baidu.com/s/1h75UaEqg_paias8Z1pEjOQ?pwd=yqek

Canny 辅助生成：Canny边缘检测预处理器，可很好识别出图像内各对象的边缘轮廓，常用于生成线稿

线稿提取辅助生成：Lineart边缘检测预处理器，可很好识别出图像内各对象的边缘轮廓，用于生成线稿

3、AI能力平台【开箱即用】

 - 项目位置：/3_api_platform - 技术栈：前端VUE，后端Springboot - 应用：可以直接部署使用，使用UI或者调用API集成到现有的系统中 - 支持的能力清单：OCR文字识别、机器翻译、语音识别、一键高清、 一键抠图、黑白照片上色、图像生成 - 模型下载：https://pan.baidu.com/s/1RIKaZJXMPbGXnB2sKtWsgQ?pwd=1uuf

OCR文字识别：自由文本识别，支持旋转、倾斜的图片

语音识别：英文语音识别、文语音识别

机器翻译：支持202种语言互相翻译

图像增强：图片一键高清，提升图片4倍分辨率

人体一键抠图

开源地址&使用手册

点击下方的【IT学习日记】回复【资源】领取！

如果这篇文章对您有帮助，请一定帮我点个 “关注” 和 “点赞”,这对我非常重要。我将会继续推荐更多优质项目和新闻。

写在最后

1000+优质开源项目更新进度：286/1000。如需更多类型优质项目推荐，请在文章后留言。

深入解析OpenClaw Skills：从原理到实战，打造专属机器人技能

一、OpenClaw Skills：机器人行为的“最小执行单元” 1.1 什么是OpenClaw Skills？ OpenClaw是面向开源机械爪/小型机器人的控制框架（核心仓库：openclaw/openclaw），旨在降低机器人行为开发的门槛。而Skills（技能）是OpenClaw框架中对机器人“单一可执行行为”的封装模块——它将机器人完成某一特定动作的逻辑（如“夹取物体”“释放物体”“移动到指定坐标”）抽象为独立、可复用、可组合的代码单元。简单来说： * 粒度：一个Skill对应一个“原子行为”（如“单指闭合”）或“组合行为”（如“夹取→移动→释放”）； * 特性：跨硬件兼容（适配不同型号机械爪）、可插拔（直接集成到OpenClaw主框架）、可扩展（支持自定义参数）； * 核心价值：避免重复开发，让开发者聚焦“

从人类视频到机器人跳舞：BeyondMimic 全流程解析与 rl_sar 部署实践

0. 前言让人形机器人学会跳舞，听起来像是科幻电影中的场景，但在强化学习和运动模仿技术的推动下，这件事正在变得越来越现实。本文将完整介绍一条从"人类 RGB 视频"到"真实机器人跳舞"的技术链路：首先通过视觉算法从视频中提取人体运动轨迹，然后将人体模型重定向到机器人关节空间，接着在仿真环境中进行强化学习训练，最后在 MuJoCo 中验证并部署到真实的 Unitree G1 人形机器人上。整条流程涉及四个核心开源项目：GVHMR（视频到人体模型）、GMR（人体到机器人重定向）、BeyondMimic（强化学习训练框架）、以及 rl_sar（仿真验证与真机部署框架）。本文不仅会逐一拆解每个环节的原理和操作步骤，还会深入分析 BeyondMimic 的算法设计，并详细记录将训练产物迁移到 rl_sar 项目中进行 sim2sim 和 sim2real 部署时遇到的关键问题与解决方案。下图展示了

HarmonyOS6 底部导航栏组件 rc_concave_tabbar 使用指南

文章目录 * 前言 * 组件特性 * 适用场景 * 使用说明 * 安装组件 * 安装步骤 * 步骤一：引入相关依赖 * 步骤二：创建菜单数据 * 步骤三：使用导航组件 * 运行效果 * 参数介绍 * TabsConcaveCircle 组件参数 * TabMenusInterfaceIRequired 菜单项配置 * 进阶使用 * 自定义单个菜单项颜色 * 调整动画速度 * 自定义高度和颜色 * 注意事项 * 总结前言 rc_concave_tabbar 是一个功能强大、样式精美的 HarmonyOS 底部导航栏组件库，提供凹陷圆形动画效果样式，适用于多种场景。本篇将介绍 rc_concave_tabbar 的使用方法以及其相关的设计理念。组件特性 * 流畅动画：支持流畅的凹陷圆形切换动画效果 * 高度定制：支持自定义背景色、字体颜色、高度等多种样式配置 * 灵活配置：支持全局配置和单项配置，满足不同场景需求

汽车雷达在多径存在下的幽灵目标检测——论文阅读

汽车雷达在多径存在下的幽灵目标检测 D. Sharif, S. Murtala and G. S. Choi, “A Survey of Automotive Radar Misalignment Detection Techniques,” in IEEE Access, vol. 13, pp. 123314-123324, 2025, doi: 10.1109/ACCESS.2025.3584454. 摘要共置多输入多输出（MIMO）技术已被广泛应用于汽车雷达系统，因为它能够以相对较少的发射和接收天线数量提供精确的角度估计。由于视距目标的发射方向（DOD）和到达方向（DOA）重合，MIMO信号处理允许形成更大的虚拟阵列用于角度查找。然而，多径反射是一个主要的限制因素，雷达信号可能从障碍物反弹，创建DOD不等于DOA的回波。因此，在具有多个散射体的复杂场景中，目标的直接路径可能被其他物体的间接路径破坏，导致不准确的角度估计或产生幽灵目标。