【AIGC】即梦omnihuaman-api调用实现

优质文章学习记录

09 Apr 2026 — 4 min read

即梦数字人视频生成（Streamlit Demo）

基于 火山引擎即梦（Jimeng）CV API 的数字人视频生成示例项目。

支持 图片 + 音频驱动 的数字人视频生成流程，集成了主体检测、Mask 选择、Prompt 控制、视频生成与下载等完整功能，适合 内部测试 / 技术演示 / 二次开发。

一、功能概览

✅ 核心功能

🔐 AK / SK 在线填写
支持火山引擎 Access Key / Secret Key 在页面中直接输入
无需写死在代码中，便于多账号切换
api key申请地址：https://console.volcengine.com/iam/keymanage
🖼 图片上传（人物图像）
支持 JPG / PNG 格式
自动保存到本地并生成公网可访问 URL
🎵 音频上传（驱动音频）
支持 MP3 / WAV 格式
作为数字人说话 / 表情驱动音频
🔍 人物 / 主体检测
调用即梦目标检测接口
自动识别图片中的多个主体
返回每个主体对应的 Mask
✂️ Mask 裁剪与可视化预览
根据 Mask 自动裁剪主体区域
按最长边缩放，统一预览尺寸
🧩 主体选择机制
可从多个检测到的主体中选择
支持「不使用 Mask，直接使用原图」模式
✏️ Prompt 驱动控制
支持输入文本 Prompt
用于控制表情、稳定性、真实感、风格等
🎬 数字人视频生成
提交视频生成任务
自动轮询任务状态
📥 视频结果展示与下载
生成完成后可直接在线播放
支持下载 MP4 文件
视频按「时间 + UUID」自动命名并保存

二、运行环境要求

Python ≥ 3.9（推荐 3.10）
操作系统：Linux / macOS / Windows
一个 可公网访问的静态文件服务（用于图片和音频 URL）

⚠️ 火山引擎接口要求：

图片和音频 URL 必须可以被公网直接访问

三、依赖安装

1️⃣ 创建虚拟环境（强烈推荐）

 python -m venv venv source venv/bin/activate

Windows：

 venv\\Scripts\\activate

2️⃣ 安装 Python 依赖

直接安装：

 pip install streamlit requests pillow numpy

或使用 requirements.txt：

 streamlit>=1.30 requests>=2.28 Pillow>=9.5 numpy>=1.23

 pip install -r requirements.txt

四、目录结构说明

 . ├── app.py # Streamlit 主程序 ├── res/ # 生成的视频结果保存目录 ├── requirements.txt # Python 依赖 └── README.md

请确保 res 目录存在：

mkdir -p res

五、静态文件服务配置（非常重要）

项目中会将 上传的图片 / 音频保存到本地目录，并通过 HTTP 方式对外暴露。

示例配置（本地测试）

 UPLOAD_DIR ="/home/yourname/data/uploads" PUBLIC_BASE_URL ="http://你的IP:8000"

启动一个简单的 HTTP 服务：

cd /home/yourname/data/uploads python -m http.server 8000

生产环境建议使用：

nginx

caddy

cloudflared

生产环境配置步骤

安装cloudflared

# 下载wget https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64 # 改名mv cloudflared-linux-amd64 cloudflared # 加执行权限chmod +x cloudflared # 移到 PATHsudomv cloudflared /usr/local/bin/

启动运行

本地启动 HTTP 服务

cd /home/yourname/data/uploads python -m http.server 8000

新开一个终端，启动隧道

 cloudflared tunnel --url http://localhost:8000

会看到类似输出：

https://random-name.trycloudflare.com

访问你的音频

https://random-name.trycloudflare.com/test.mp3

六、启动项目

 streamlit run app.py

浏览器访问：

 http://localhost:8501

七、使用流程说明

打开页面，输入 Access Key / Secret Key
上传一张 人物图片
上传一段 音频文件
（可选）输入 Prompt 描述
点击「开始检测」
从检测到的主体中选择目标（或选择原图）
等待视频生成完成
在线预览并下载生成的视频

八、常见注意事项

建议使用 清晰正脸人物图像
音频时长不宜过长（建议 < 60 秒）
若接口返回失败，请重点检查：
AK / SK 是否正确
图片 / 音频 URL 是否能被公网访问
文件格式是否符合要求

九、适用场景

数字人 / 虚拟人能力演示
内部技术验证
API 调用示例参考
二次开发或功能扩展基础工程

十、项目地址及页面

https://github.com/min-star/omnihuman-api.git

页面展示

十一、免责声明

本项目仅作为 火山引擎即梦 API 使用示例（Demo）。

生成效果、接口能力、配额限制等以火山引擎官方文档为准。

参考链接：https://jimeng.jianying.com/ai-tool/generate?type=digitalHuman

十二、可扩展方向（建议）

Docker 一键部署
AK / SK 使用环境变量管理
多任务队列 / 并发控制
历史任务与结果管理
Prompt 模板与预设管理

如需进一步定制或扩展，请根据实际业务需求进行二次开发。

OpenClaw横空出世：星标榜第一的AI Agent框架凭什么引爆2026？

欢迎文末添加好友交流，共同进步！ “ 俺はモンキー・D・ルフィ。海贼王になる男だ！” * 一、现象级爆火：GitHub年度最热AI项目 * 二、OpenClaw是什么？ * 核心定位 * 三、OpenClaw凭什么成为新标杆？ * 3.1 自托管部署：数据主权回归 * 3.2 无代码革命：人人都是开发者 * 3.3 微内核架构：优雅且强大 * 3.4 多智能体协同 * 四、技术架构深度解析 * 4.1 核心组件 * 4.2 2026.3.7重大更新 * 五、与主流框架对比 * 5.1 OpenClaw vs LangChain * 5.2 OpenClaw vs

终于读懂了大模型、智能体、AIGC

关注我，不迷路今天给小伙伴们分享一下。一、大模型概念 1.1 大模型通常指的是大规模的人工智能模型，是一种基于深度学习技术，具有海量参数、强大的学习能力和泛化能力，能够处理和生成多种类型数据的人工智能模型。通常说的大模型的“大”的特点体现在：参数数量庞大、训练数据量大、计算资源需求高 2020年，OpenAI公司推出了GPT-3，模型参数规模达到了1750亿，2023年3月发布的GPT-4的参数规模是GPT-3的10倍以上，达到1.8万亿，2021年11月阿里推出的M6 模型的参数量达10万亿。 1.2 大模型分类 1.3 大模型特点巨大的规模、涌现能力、更好的性能和泛化能力、多任务学习、大数据训练、强大的计算资源、迁移学习和预训练、自监督学习、领域知识融合、自动化和效率。 1.4 大模型应用大模型的应用领域非常广泛，涵盖了自然语言处理、计算机视觉、语音识别、推荐系统、

Z-Image-Turbo与Midjourney对比：开源VS闭源生成效果实测

Z-Image-Turbo与Midjourney对比：开源VS闭源生成效果实测 1. 开源新星Z-Image-Turbo来了，它到底有多强？你有没有遇到过这种情况：脑子里有个画面，想画出来却无从下手？或者做设计时，为了找一张合适的配图翻遍全网都不满意？现在，AI绘画已经能帮你把想法变成现实。而在众多AI图像生成工具中，最近冒出来一个叫 Z-Image-Turbo 的模型，势头特别猛。它是阿里巴巴通义实验室开源的一款高效文生图模型，名字里的“Turbo”可不是吹的——主打一个快、准、稳。更关键的是，它完全免费，还能在消费级显卡上跑起来。相比之下，像Midjourney这样的闭源工具虽然效果也不错，但得付费、要翻墙、还得绑定Discord，用起来没那么自由。那问题就来了：这个新开源的Z-Image-Turbo，真能跟Midjourney掰手腕吗？我们决定来一场面对面的实测PK，看看谁才是真正的“造图王者”。 2. Z-Image-Turbo是什么？为什么值得关注 2.1 什么是Z-Image-Turbo Z-Image-Turbo是阿里通义实验室推出的高效文本生成图

【AIGC实战】蓝耘元生代部署通义万相2.1文生视频，up主亲测好用~

文章目录 * 👏什么是文生视频？ * 👏通义万相2.1文生视频 * 👏开源仓库代码 * 👏蓝耘元生代部署通义万相2.1文生视频 * 👏平台注册 * 👏部署通义万相2.1文生视频 * 👏使用通义万相2.1文生视频 * 👏总结 👏什么是文生视频？文生视频（Text-to-Video）是利用人工智能技术，通过文本描述生成视频内容的一种创新技术。类似于图像生成技术，文生视频允许用户通过输入简单的文本描述，AI模型会自动将其转化为动态视频。这种技术广泛应用于创作、广告、教育等领域，为内容创作者提供了新的创作方式和灵感。 👏通义万相2.1文生视频 IT之家 1 月 10 日消息，阿里旗下通义万相宣布推出 2.1 版本模型升级，视频生成、图像生成两大能力均有显著提升。在视频生成方面，通义万相 2.1 通过自研的高效 VAE 和 DiT 架构增强了时空上下文建模能力，支持无限长 1080P 视频的高效编解码，