2026最新AI聚合系统（渐进式AIGC系统）：nano-banana-2第二代绘画、VEO3/VEO3.1、Sora-2视频生成大模型私有化独立系统+扣子工作流Agent智能体

优质文章学习记录

09 Apr 2026 — 8 min read

SparkAi系统：渐进式AIGC系统，一款基于OpenAi/ChatGPT、GPT-5.2/GPT-5、最新旗舰大模型Claude-opus-4-6、nano-banana-2第二代绘画大模型、Gemini-3.1-pro、DeepSeek、Sora-2、VEO3.1、Agent智能体扣子（coze）插件、工作流、函数、知识库等AI大模型能力开发的一站式AI系统；支持「🤖AI聊天」、「🎨专业AI绘画」、「🧠AI智能体」、「🪟Agent应用」、「🎬AI视频生成」等，支持独立私有部署！提供面向个人用户 (ToC)、开发者 (ToD)、企业 (ToB)的全面解决方案。

一、SparkAi系统/官网

最新旗舰大模型Claude-opus-4-6、GPT-5.3-Codex、GPT-5.2、GPT-5-PRO、gpt-image-1.5绘画大模型、超强生图 nano-banana-2第二代绘画大模型、Gemini-3.1-pro、最强VEO3/3.1、最火Sora-2.0视频生成大模型支持公告

Midjourney HD视频功能

全新的MJ高清视频创作能力

超强生图模型Nano Banana：支持最新Nano-Banana-2 第二代绘图（gemini-3-pro-image-preview）大模型

单图玩法（制作3D手办）等创意玩法

多图玩法（人物换装联动等创意玩法）

支持Claude最新旗舰大模型Claude-opus-4-6、claude-sonnet-4-6、gemini-3.1-pro-preview大模型

VEO3.1视频生成大模型

VEO3谷歌官方最新的视频生成模型，生成的视频带有声音，目前全球独一家带有声音的视频模型。支持VEO3/3.1、VEO3.1-fast、VEO3.1-components（支持首帧传递，不支持尾帧）、veo3.1-pro大模型：支持视频自动配套音频生成，质量高价格很低，性价比最高的选择。

生成效果质量演示

提示词（VEO3.1-PRO模型生成）：

一只小狗开着保时捷汽车，在城市路口被交警发现，刚检查是否酒驾，小狗突然开走。

VEO3.1-PRO大模型生成效果质量演示

支持Sora 模型 2.0视频生成大模型

提示词（Sora-2模型生成）：

一只真实的老虎和一只可爱的猫大街上跳着musicmusic卡点舞。

Sora-2大模型生成效果质量演示

支持最新GPT-5.2相关大模型

支持最新gemini-3.1-pro相关大模型

支持最新gpt-image-1.5绘画大模型

OpenAI gpt-image-1.5 模型, 更好的一致性。

.....

程序逐步功能迭代增加、价格保持统一、超高性价比版本系统！截止2026年3月系统已经不断开发更新迭代三年之久。

《SparkAI系统介绍文档 - 渐进式AIGC系统》

二、Coze-Agent独立大模块开发

工作流调用演示

返回和官方一致

2.1 Agent首页

支持Agent网站名称动态设置

2.2 Agent智能体商店

支持Agent智能体使用自动评分、活跃度、热度（自研算法）

2.3 Agent智能体对话首页

支持推荐问题设置和显示

2.4 Agent智能体实时流式响应

2.5对话完成响应

Agent智能体推荐问题支持、用户前端快捷追问支持

2.6 Agent智能体实时响应调用模型、插件、工作流、思考过程

2.7支持多文件类型上传

2.8插件、工作流、知识库等配置

2.9支持Agent应用链接分享功能、微信扫码分享功能、对话记录预览模式、内容海报分享功能

3.0系统功能特性

三、系统演示

快速体验

SparkAi官方演示站：

https://ai.sparkaigf.com

管理后端:

https://ai.sparkaigf.com/sparkai/admin

测试账号：admin、123456

四、系统功能模块

4.1 AI全模型支持/插件系统

AI大模型

4.2 AI智能体应用

4.2.1 AI智能体广场

GPTs应用+Prompt自定义预设应用、可全网搜索使用

4.2.2 支持用户自定义创建AI智能体

4.3 AI专业绘画

文生图/图生图/参考图生图

Vary Region 局部编辑重绘

混图生图

AI换脸

4.4 Dall-E2/E3绘画

支持对话绘画

4.5 独立AI视频生成（PikaAi）

文生视频 / 图生视频可生成15秒视频

4.6 智能思维导图生成

4.7 AI画廊

画廊广场

4.8 推介系统

4.9 支持微信登录

支持微信环境静默登录、浏览器中微信主动扫码登录、邮箱注册登录、手机号注册登录

4.10 微信官方原生支付支持

支持官方微信支持、易支付、码支付、虎皮椒支付等支付方式, 支持同步检查订单状态, 支持订单搜索和管理。

官方微信支付开启下，在PC端我们会调用native支付（直接生成二维码支付）

在手机微信环境内，我们将调用Jsapi支付（直接调用手机微信钱包进行支付）

更多详情直接访问官方演示站查看~

4.11 手机移动端（部分）

更多详情直接访问官方演示站手机端查看

4.12 管理后台（部分）

新版本仪表盘

智能体其他和后台页面太多功能，就不展示了，直接访问官方演示站点和演示后台。

AIGC-Fooocus部署实践：从本地手动配置到云端一键启用的深度剖析

摘要：本文旨在为人工智能生成内容（AIGC）领域的爱好者和开发者提供一份详尽的Fooocus部署指南。Fooocus作为一款基于Gradio的开源图像生成软件，凭借其简化的操作和高质量的输出，受到了广泛关注。我们将通过两种截然不同的部署路径——传统的本地手动环境配置与现代化的云平台一键部署——来全面探索Fooocus的落地过程。本文将深入剖析手动部署中的每一个步骤、每一条命令及其背后的技术逻辑，详细记录可能遇到的环境冲突与解决方案，并将其与云端部署的流畅体验进行客观对比，为读者在不同场景下选择最合适的部署策略提供坚实的技术参考。第一章：引言——Fooocus与AIGC部署的挑战随着Stable Diffusion等底层模型的开源，AIGC技术，特别是文生图领域，迎来了爆发式的增长。各种应用和WebUI层出不穷，极大地降低了普通用户接触和使用前沿AI模型的门槛。在众多工具中，由lllyasviel（ControlNet的作者）开发的Fooocus，以其独特的哲学脱颖而出。Fooocus的设计理念是“化繁为简”，它在保留Stable Diffusion XL（SDXL）强大能力的

LLaMA Factory多模态微调实践

LLaMA Factory 多模态微调实践一、前提准备：环境与数据深度适配（一）运行环境技术规格 1. 硬件配置底层逻辑 * GPU 选型依据： * 推荐 24GB 显存的 A10（ecs.gn7i-c8g1.2xlarge）。 * 核心原因：Qwen2-VL-2B 模型加载后显存占用约 8-10GB，全参微调过程中梯度计算、优化器状态存储需额外 10-12GB 显存，24GB 可避免显存溢出（OOM）。 * 若使用 16GB 显存的 T4 等型号，需启用梯度检查点（gradient checkpointing），但会增加约 20% 训练时间。 * CPU 与内存配套： * 建议 8 核 CPU + 32GB 内存，避免数据加载（

终极语音转文字与说话人分离完整指南：Whisper Diarization快速入门

终极语音转文字与说话人分离完整指南：Whisper Diarization快速入门【免费下载链接】whisper-diarizationAutomatic Speech Recognition with Speaker Diarization based on OpenAI Whisper 项目地址: https://gitcode.com/GitHub_Trending/wh/whisper-diarization 在当今数字化办公环境中，语音转文字与说话人分离技术正成为提升工作效率的关键工具。Whisper Diarization作为基于OpenAI Whisper的开源项目，完美解决了多说话人场景下的语音识别难题，让您能够快速获得带说话人标签的完整转录文本。 🎯 项目核心价值：为什么选择Whisper Diarization 传统语音识别工具在处理多人对话时往往无法区分不同说话者，导致转录结果难以阅读和分析。Whisper Diarization通过整合顶尖的语音处理技术，提供了以下独特价值： * 智能说话人识别：自动区分音频中的不同说话者 * 精准时间戳对齐

llama.cpp加载多模态gguf模型

llama.cpp预编译包还不支持cuda12.6 llama.cpp的编译，也有各种坑 llama.cpp.python的也需要编译 llama.cpp命令行加载多模态模型 llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg **模型主gguf文件要和mmporj文件从一个库里下载，否则会有兼容问题，建议从ggml的官方库里下载 Multimodal GGUFs官方库 llama.cpp.python加载多模态模型看官方文档要使用LlamaChatHandler类，官方已经写好了不少多模态模型的加载类，比如qwen2.5vl的写法： from llama_cpp import Llama