别在自己造轮子了!推荐一款功能炸裂的开源人工智能解决方案,内置产品级IOC、以图搜图,人像搜索

别在自己造轮子了!推荐一款功能炸裂的开源人工智能解决方案,内置产品级IOC、以图搜图,人像搜索


💂 个人网站:IT知识小屋🤟 版权: 本文由【IT学习日记】原创、在ZEEKLOG首发、需要转载请联系博主💬 如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦

文章目录

简介

本项目是一款依托于JAVA实现的通用人工智能解决方案,涵盖了模型训练、推理到Web/桌面应用的一整套AI功能。支持产品级OCR文字识别(可自定义模板)、图像搜索、人脸检索、智能抠图、照片上色、图像增强、机器翻译、RAG搜索以及大模型接入等,可开箱即用。

系统采用主流技术栈:SpringBoot + Vue搭建,后端使用SpringBoot提供API服务,前端基于Vue实现可视化管理,支持模块化部署和二次开发。项目代码完全开源,模块之间高度解耦,用户可按需引入,灵活扩展,特别适合需要快速集成 AI 功能的企业与个人开发者。


开发环境

CPU Windows x64, Linux x64, macOS x64 GPU (CUDA) Windows x64, Linux x64 

模型下载:https://pan.baidu.com/s/16933J3dX16xnjbYaay-4og?pwd=cwxk


功能模块

1、AI训练平台【模型定制】

  • 项目位置:/2_training_platform
  • 使用人群:面向java程序员,满足图像识别分类定制化需求
  • 功能清单:支持图像分类模型训练、支持图像1:1

数据上传:

超参数配置:

训练可视化:

2、AI Web应用

 - 项目位置:/4_web_app - 技术栈:前端VUE,后端Springboot - 使用方式:可直接部署使用,使用UI或者调用API集成到现有的系统中 - 功能清单:图像生成、人脸搜索、以图搜图、以文搜图、一键抠图、文本搜索、图像生成 

OCR:自定义模版识别(项目位置:/4_web_app/iocr)

  • 参照锚点设置
  • 内容识别区设置

以图搜图

 - 项目位置:/4_web_app/image_search,一共提供了三个不同的版本 - 无向量引擎的版本,适合100万图片以下:mini_image_search - 向量引擎的版本,无管理系统的精简版:simple_image_search - 向量引擎的版本,完整的产品级应用:image_search 
  • 图片上传:支持服务器端文件夹上传(大量图片使用,如千万张图片入库)、提取人脸特征方式、支持客户端文件夹上传
  • 图像搜索

跨模态:以文搜图,以图搜图

 - 项目位置:/4_web_app/image_text_search,提供了2个不同的版本 - 无向量引擎的版本,适合100万图片以下:mini_image_text_search - 向量引擎的版本,适合100万图片以上:image_text_search 
  • 图片上传:提取特征
  • 以文搜图:输入文本如:雪地上两只狗
  • 以图搜图

人脸搜索

 - 项目位置:/4_web_app/face_search 
  • 上传图片:点击提取人脸特征按钮
  • 人脸搜索

一键抠图

 - 项目位置:/4_web_app/image_seg,提供了2个不同的版本 - 一键抠图完整版,包含:框选一键抠图,通用一键抠图,人体一键抠图,动漫一键抠图:image_seg - 框选一键抠图:image_seg_sam2 
  • 框选一键抠图
  • 框选一键抠图

文本搜索

 - 项目位置:/4_web_app/text_search,提供了2个不同的版本 - 随时对数据进行插入、删除、搜索、更新等操作,结合大模型实现RAG功能,根据需要替换其它的特征提取模型:1_sdks\2_nlp_sdks\embedding - 无向量引擎的版本,适合100万条数据以下:simple_text_search - 向量引擎的版本,适合100万条数据以上:text_search 
  • 上传数据:点击提取特征按钮
  • 文本搜索

图像生成

 - 项目位置:/4_web_app/aigc_image_gen - 图像生成模型链接: https://pan.baidu.com/s/1znJi092mth3z68Oq_j2lsA?pwd=dmra - 预处理模型链接: https://pan.baidu.com/s/1h75UaEqg_paias8Z1pEjOQ?pwd=yqek 

Canny 辅助生成:Canny边缘检测预处理器,可很好识别出图像内各对象的边缘轮廓,常用于生成线稿

线稿提取辅助生成:Lineart边缘检测预处理器,可很好识别出图像内各对象的边缘轮廓,用于生成线稿

3、AI能力平台【开箱即用】

 - 项目位置:/3_api_platform - 技术栈:前端VUE,后端Springboot - 应用:可以直接部署使用,使用UI或者调用API集成到现有的系统中 - 支持的能力清单:OCR文字识别、机器翻译、语音识别、一键高清、 一键抠图、黑白照片上色、图像生成 - 模型下载:https://pan.baidu.com/s/1RIKaZJXMPbGXnB2sKtWsgQ?pwd=1uuf 
  • OCR文字识别:自由文本识别,支持旋转、倾斜的图片
  • 语音识别:英文语音识别、文语音识别
  • 机器翻译:支持202种语言互相翻译
  • 图像增强:图片一键高清,提升图片4倍分辨率
  • 人体一键抠图

开源地址&使用手册

点击下方的【IT学习日记】回复【资源】领取!

如果这篇文章对您有帮助,请一定帮我点个 “关注”“点赞”,这对我非常重要。我将会继续推荐更多优质项目和新闻。

写在最后

1000+优质开源项目更新进度:286/1000。如需更多类型优质项目推荐,请在文章后留言。

在这里插入图片描述

Read more

深入解析OpenClaw Skills:从原理到实战,打造专属机器人技能

深入解析OpenClaw Skills:从原理到实战,打造专属机器人技能

一、OpenClaw Skills:机器人行为的“最小执行单元” 1.1 什么是OpenClaw Skills? OpenClaw是面向开源机械爪/小型机器人的控制框架(核心仓库:openclaw/openclaw),旨在降低机器人行为开发的门槛。而Skills(技能) 是OpenClaw框架中对机器人“单一可执行行为”的封装模块——它将机器人完成某一特定动作的逻辑(如“夹取物体”“释放物体”“移动到指定坐标”)抽象为独立、可复用、可组合的代码单元。 简单来说: * 粒度:一个Skill对应一个“原子行为”(如“单指闭合”)或“组合行为”(如“夹取→移动→释放”); * 特性:跨硬件兼容(适配不同型号机械爪)、可插拔(直接集成到OpenClaw主框架)、可扩展(支持自定义参数); * 核心价值:避免重复开发,让开发者聚焦“

By Ne0inhk
从人类视频到机器人跳舞:BeyondMimic 全流程解析与 rl_sar 部署实践

从人类视频到机器人跳舞:BeyondMimic 全流程解析与 rl_sar 部署实践

0. 前言 让人形机器人学会跳舞,听起来像是科幻电影中的场景,但在强化学习和运动模仿技术的推动下,这件事正在变得越来越现实。本文将完整介绍一条从"人类 RGB 视频"到"真实机器人跳舞"的技术链路:首先通过视觉算法从视频中提取人体运动轨迹,然后将人体模型重定向到机器人关节空间,接着在仿真环境中进行强化学习训练,最后在 MuJoCo 中验证并部署到真实的 Unitree G1 人形机器人上。 整条流程涉及四个核心开源项目:GVHMR(视频到人体模型)、GMR(人体到机器人重定向)、BeyondMimic(强化学习训练框架)、以及 rl_sar(仿真验证与真机部署框架)。本文不仅会逐一拆解每个环节的原理和操作步骤,还会深入分析 BeyondMimic 的算法设计,并详细记录将训练产物迁移到 rl_sar 项目中进行 sim2sim 和 sim2real 部署时遇到的关键问题与解决方案。 下图展示了

By Ne0inhk
HarmonyOS6 底部导航栏组件 rc_concave_tabbar 使用指南

HarmonyOS6 底部导航栏组件 rc_concave_tabbar 使用指南

文章目录 * 前言 * 组件特性 * 适用场景 * 使用说明 * 安装组件 * 安装步骤 * 步骤一:引入相关依赖 * 步骤二:创建菜单数据 * 步骤三:使用导航组件 * 运行效果 * 参数介绍 * TabsConcaveCircle 组件参数 * TabMenusInterfaceIRequired 菜单项配置 * 进阶使用 * 自定义单个菜单项颜色 * 调整动画速度 * 自定义高度和颜色 * 注意事项 * 总结 前言 rc_concave_tabbar 是一个功能强大、样式精美的 HarmonyOS 底部导航栏组件库,提供凹陷圆形动画效果样式,适用于多种场景。本篇将介绍 rc_concave_tabbar 的使用方法以及其相关的设计理念。 组件特性 * 流畅动画:支持流畅的凹陷圆形切换动画效果 * 高度定制:支持自定义背景色、字体颜色、高度等多种样式配置 * 灵活配置:支持全局配置和单项配置,满足不同场景需求

By Ne0inhk
汽车雷达在多径存在下的幽灵目标检测——论文阅读

汽车雷达在多径存在下的幽灵目标检测——论文阅读

汽车雷达在多径存在下的幽灵目标检测 D. Sharif, S. Murtala and G. S. Choi, “A Survey of Automotive Radar Misalignment Detection Techniques,” in IEEE Access, vol. 13, pp. 123314-123324, 2025, doi: 10.1109/ACCESS.2025.3584454. 摘要 共置多输入多输出(MIMO)技术已被广泛应用于汽车雷达系统,因为它能够以相对较少的发射和接收天线数量提供精确的角度估计。由于视距目标的发射方向(DOD)和到达方向(DOA)重合,MIMO信号处理允许形成更大的虚拟阵列用于角度查找。然而,多径反射是一个主要的限制因素,雷达信号可能从障碍物反弹,创建DOD不等于DOA的回波。因此,在具有多个散射体的复杂场景中,目标的直接路径可能被其他物体的间接路径破坏,导致不准确的角度估计或产生幽灵目标。

By Ne0inhk