原生 AI PPT 生成应用“蕉幻”的技术架构与使用解析

原生 AI PPT 生成应用“蕉幻”的技术架构与使用解析 | 极客日志

【插入架构图位置：banana-slides 系统架构图】前端 (React) ←→ 后端 (Flask) ←→ AI 服务 (Gemini API)
│ │ │
用户界面层 业务逻辑层 AI 能力层

banana-slides/
├── frontend/ # React 前端应用
│   ├── src/
│   │   ├── pages/ # 页面组件
│   │   │   ├── Home.tsx # 首页（创建项目）
│   │   │   ├── OutlineEditor.tsx # 大纲编辑页
│   │   │   ├── DetailEditor.tsx # 详细描述编辑页
│   │   │   ├── SlidePreview.tsx # 幻灯片预览页
│   │   │   └── History.tsx # 历史版本管理页
│   │   ├── components/ # UI 组件
│   │   │   ├── outline/ # 大纲相关组件
│   │   │   │   └── OutlineCard.tsx
│   │   │   ├── preview/ # 预览相关组件
│   │   │   │   ├── SlideCard.tsx
│   │   │   │   └── DescriptionCard.tsx
│   │   │   ├── shared/ # 共享组件
│   │   │   │   ├── Button.tsx
│   │   │   │   ├── Card.tsx
│   │   │   │   ├── Input.tsx
│   │   │   │   ├── Textarea.tsx
│   │   │   │   ├── Modal.tsx
│   │   │   │   ├── Loading.tsx
│   │   │   │   ├── Toast.tsx
│   │   │   │   ├── Markdown.tsx
│   │   │   │   ├── MaterialSelector.tsx
│   │   │   │   ├── MaterialGeneratorModal.tsx
│   │   │   │   ├── TemplateSelector.tsx
│   │   │   │   ├── ReferenceFileSelector.tsx
│   │   │   │   └── ...
│   │   │   ├── layout/ # 布局组件
│   │   │   └── history/ # 历史版本组件
│   │   ├── store/ # Zustand 状态管理
│   │   │   └── useProjectStore.ts
│   │   ├── api/ # API 接口
│   │   │   ├── client.ts # Axios 客户端配置
│   │   │   └── endpoints.ts # API 端点定义
│   │   ├── types/ # TypeScript 类型定义
│   │   ├── utils/ # 工具函数
│   │   ├── constants/ # 常量定义
│   │   └── styles/ # 样式文件
│   ├── public/ # 静态资源
│   ├── package.json
│   ├── vite.config.ts
│   ├── tailwind.config.js # Tailwind CSS 配置
│   ├── Dockerfile
│   └── nginx.conf # Nginx 配置
│   ├── backend/ # Flask 后端应用
│   ├── app.py # Flask 应用入口
│   ├── config.py # 配置文件
│   ├── models/ # 数据库模型
│   │   ├── project.py # Project 模型
│   │   ├── page.py # Page 模型（幻灯片页）
│   │   ├── task.py # Task 模型（异步任务）
│   │   ├── material.py # Material 模型（参考素材）
│   │   ├── user_template.py # UserTemplate 模型（用户模板）
│   │   ├── reference_file.py # ReferenceFile 模型（参考文件）
│   │   ├── page_image_version.py # PageImageVersion 模型（页面版本）
│   ├── services/ # 服务层
│   │   ├── ai_service.py # AI 生成服务（Gemini 集成）
│   │   ├── file_service.py # 文件管理服务
│   │   ├── file_parser_service.py # 文件解析服务
│   │   ├── export_service.py # PPTX/PDF 导出服务
│   │   ├── task_manager.py # 异步任务管理
│   │   ├── prompts.py # AI 提示词模板
│   ├── controllers/ # API 控制器
│   │   ├── project_controller.py # 项目管理
│   │   ├── page_controller.py # 页面管理
│   │   ├── material_controller.py # 素材管理
│   │   ├── template_controller.py # 模板管理
│   │   ├── reference_file_controller.py # 参考文件管理
│   │   ├── export_controller.py # 导出功能
│   │   └── file_controller.py # 文件上传
│   ├── utils/ # 工具函数
│   │   ├── response.py # 统一响应格式
│   │   ├── validators.py # 数据验证
│   │   └── path_utils.py # 路径处理
│   ├── instance/ # SQLite 数据库（自动生成）
│   ├── exports/ # 导出文件目录
│   ├── Dockerfile
│   └── README.md
├── tests/ # 测试文件目录
├── v0_demo/ # 早期演示版本
├── output/ # 输出文件目录
│   ├── pyproject.toml # Python 项目配置（uv 管理）
├── uv.lock # uv 依赖锁定文件
├── docker-compose.yml # Docker Compose 配置
├── .env.example # 环境变量示例
├── LICENSE # 许可证
└── README.md # 本文件

class AIService:
    """Service for AI model interactions using pluggable providers"""
    def __init__(self, text_provider: TextProvider = None, image_provider: ImageProvider = None):
        # 使用插件化设计，支持不同的 AI 提供商
        self.text_provider = text_provider or get_text_provider(model=self.text_model)
        self.image_provider = image_provider or get_image_provider(model=self.image_model)

@retry(stop=stop_after_attempt(3), retry=retry_if_exception_type((json.JSONDecodeError, ValueError)))
def generate_json(self, prompt: str, thinking_budget: int = 1000) -> Union[Dict, List]:
    """ 生成并解析 JSON，如果解析失败则重新生成
    这就像让 AI 写作文，如果格式不对就重写，直到符合要求
    """
    response_text = self.text_provider.generate_text(prompt, thinking_budget=thinking_budget)
    # 清理响应文本：移除 markdown 代码块标记
    cleaned_text = response_text.strip().strip("```json").strip("```").strip()
    try:
        return json.loads(cleaned_text)
    except json.JSONDecodeError as e:
        logger.warning(f"JSON 解析失败，将重新生成。原始文本：{cleaned_text[:200]}...")
        raise

def generate_outline(self, project_context: ProjectContext, language: str = None) -> List[Dict]:
    """ 从想法生成 PPT 大纲 - 这是整个流程的起点
    过程：用户想法 → AI 理解 → 结构化大纲
    """
    outline_prompt = get_outline_generation_prompt(project_context, language)
    outline = self.generate_json(outline_prompt, thinking_budget=1000)
    return outline

def flatten_outline(self, outline: List[Dict]) -> List[Dict]:
    """ 将层次化大纲扁平化为页面列表
    例如：将"第一部分{页面 1, 页面 2}"转换为 [页面 1, 页面 2]
    """
    pages = []
    for item in outline:
        if "part" in item and "pages" in item:
            # 处理章节结构：展开章节内的页面
            for page in item["pages"]:
                page_with_part = page.copy()
                page_with_part["part"] = item["part"]
                # 保留章节信息
                pages.append(page_with_part)
        else:
            # 直接页面
            pages.append(item)
    return pages

def generate_image(self, prompt: str, ref_image_path: Optional[str] = None, additional_ref_images: Optional[List[Union[str, Image.Image]]] = None) -> Optional[Image.Image]:
    """ 生成图片，支持多种参考图片来源：
    - 本地文件路径
    - HTTP URL
    - MinerU 特殊路径
    - 直接传入的 PIL Image 对象
    """
    ref_images = []
    # 处理主参考图片
    if ref_image_path and os.path.exists(ref_image_path):
        ref_images.append(Image.open(ref_image_path))
    # 处理额外参考图片
    if additional_ref_images:
        for ref_img in additional_ref_images:
            if isinstance(ref_img, Image.Image):
                ref_images.append(ref_img)
            elif isinstance(ref_img, str):
                if ref_img.startswith('http'):
                    # 下载网络图片
                    downloaded_img = self.download_image_from_url(ref_img)
                    if downloaded_img:
                        ref_images.append(downloaded_img)
                elif ref_img.startswith('/files/mineru/'):
                    # 处理 MinerU 路径
                    local_path = self._convert_mineru_path_to_local(ref_img)
                    if local_path:
                        ref_images.append(Image.open(local_path))
    return self.image_provider.generate_image(prompt=prompt, ref_images=ref_images)

def extract_image_urls_from_markdown(self, text: str) -> List[str]:
    """ 从 markdown 文本中提取图片 URL
    自动识别格式的图片引用
    """
    pattern = r'!\[.*?\]\((.*?)\)'
    matches = re.findall(pattern, text)
    urls = []
    for url in matches:
        url = url.strip()
        if url and (url.startswith('http') or url.startswith('/files/mineru/')):
            urls.append(url)
    return urls

def remove_markdown_images(self, text: str) -> str:
    """ 移除 Markdown 图片链接，只保留描述文字
    例如：将"请看下图"转换为"请看下图"
    """
    def replace_image(match):
        alt_text = match.group(1).strip()
        return alt_text if alt_text else ''
    pattern = r'!\[(.*?)\]\([^)]+\)'
    return re.sub(pattern, replace_image, text)

def refine_outline(self, current_outline: List[Dict], user_requirement: str, project_context: ProjectContext, previous_requirements: Optional[List[str]] = None) -> List[Dict]:
    """ 根据自然语言指令修改大纲
    支持多轮对话，能记住之前的修改要求
    """
    refinement_prompt = get_outline_refinement_prompt(
        current_outline=current_outline,
        user_requirement=user_requirement,
        project_context=project_context,
        previous_requirements=previous_requirements # 支持历史上下文
    )
    return self.generate_json(refinement_prompt, thinking_budget=1000)

def edit_image(self, prompt: str, current_image_path: str, original_description: str = None) -> Optional[Image.Image]:
    """ 基于自然语言指令编辑现有图片
    例如："把这张图的背景换成蓝色"
    """
    edit_instruction = get_image_edit_prompt(
        edit_instruction=prompt,
        original_description=original_description # 提供原始描述作为上下文
    )
    return self.generate_image(edit_instruction, current_image_path)

class ProjectContext:
    """统一管理 AI 需要的所有项目信息"""
    def __init__(self, project_or_dict, reference_files_content: Optional[List[Dict[str, str]]] = None):
        # 支持 Project 对象或字典，提高灵活性
        if hasattr(project_or_dict, 'idea_prompt'):
            self.idea_prompt = project_or_dict.idea_prompt
            self.outline_text = project_or_dict.outline_text
            # ... 其他属性
        else:
            self.idea_prompt = project_or_dict.get('idea_prompt')
            # ... 其他属性
        self.reference_files_content = reference_files_content or []

用户输入
↓
AIService.generate_outline() # 生成大纲
↓
AIService.flatten_outline() # 扁平化处理
↓
循环每个页面:
↓
AIService.generate_page_description() # 生成页面描述
↓
AIService.generate_image_prompt() # 生成图片提示词
↓
AIService.generate_image() # 生成图片
↓
组合成完整 PPT

# 1. 克隆项目
git clone https://github.com/Anionex/banana-slides
cd banana-slides

# 2. 配置环境变量（需 Gemini API Key）
cp .env.example .env
# 编辑 .env 文件，填入你的 Google API Key
# GOOGLE_API_KEY=your-api-key-here

# 3. 启动服务
docker compose up -d

# 4. 访问应用
http://localhost:3000

1. 项目介绍
2. 核心功能
   - 三种生成路径
   - 素材解析
   - 自然语言修改
3. 技术架构
4. 未来规划

第一页：标题"蕉幻 - 重新定义 AI PPT"，副标题"基于 nano banana pro 的原生 AI PPT 生成应用"，背景图是科技感的抽象线条
第二页：核心功能，3 个要点，每个要点配图标

生成方式	适合场景	优点	缺点
从想法生成	初期构思，思路模糊	快速启动，无需详细规划	可能需要多次调整
从大纲生成	有基本结构，需要填充内容	结构清晰，内容丰富	需要提前规划大纲
从页面描述生成	有明确每页内容，只需生成设计	最快，适合细节把控	需要详细描述每页

状态	功能	说明
✅ 已完成	三种生成路径	从想法/大纲/页面描述生成 PPT
✅ 已完成	文本与链接自动提取	从文本中抽取要点和图片链接
✅ 已完成	素材上传与解析	上传参考图片、旧 PPT
🔄 进行中	元素分割与编辑	支持对已生成图片的元素进行分割和编辑
🔄 进行中	文件上传与网络搜索	支持上传文件和网络搜索素材
🧭 规划中	Agent 模式	AI 自动优化 PPT 内容和设计

原生 AI PPT 生成应用“蕉幻”的技术架构与使用解析

前言

1. 为什么我们需要'蕉幻'？—— 从痛点出发

2. '蕉幻'的核心设计哲学：Vibe Your PPT Like Vibing Code

2.1 大白话解释：为什么'Vibe'重要？

3. 技术架构：从'想法'到'PPT'的全链路

3.1 技术栈

3.2 整体架构设计

3.2.1 核心流程解析

3.2.1.1 用户输入 → AI 解析

3.2.1.2 AI 生成 PPT 页面

3.2.1.3 自然语言修改

3.3 项目结构解析

3.4 基于 API 调用的 AI 服务集成

3.4.1 核心架构设计：插件化 AI 提供商模式

3.4.2 智能 JSON 生成与重试机制

3.5 多模态内容处理流程

3.5.1 从想法到结构化大纲

3.5.2 大纲扁平化处理

3.6 智能图片生成与素材集成

3.6.1 多源图片处理能力

3.6.2 Markdown 内容智能解析

3.7 自然语言编辑与迭代优化

3.7.1 大纲细化功能

3.7.2 图片编辑功能

3.8 项目上下文管理

3.9 完整的 PPT 生成工作流

3.10 技术特色总结

4. 部署与使用：3 分钟上手

4.1 使用 Docker 一键部署（推荐）

4.2 三种创建方式示例

4.2.1 方式一：从想法生成（一句话生成）

4.2.2 方式二：从大纲生成

4.3 方式三：从页面描述生成

5. 技术亮点：为什么'蕉幻'能做到'Vibe'？

5.1 基于 nano banana pro 的高质量生成

5.2 三种生成路径，适配不同创作习惯

5.3 自然语言修改：告别反复生成

5.4 素材理解与上传

6. 未来规划：从'Vibe PPT'到'智能幻灯片'

7. 结语：AI PPT 的未来

8. 经典书籍推荐

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具