【AIGC】即梦omnihuaman-api调用实现

即梦数字人视频生成(Streamlit Demo)

基于 火山引擎即梦(Jimeng)CV API 的数字人视频生成示例项目。

支持 图片 + 音频驱动 的数字人视频生成流程,集成了主体检测、Mask 选择、Prompt 控制、视频生成与下载等完整功能,适合 内部测试 / 技术演示 / 二次开发


一、功能概览

✅ 核心功能

  • 🔐 AK / SK 在线填写
  • 支持火山引擎 Access Key / Secret Key 在页面中直接输入
  • 无需写死在代码中,便于多账号切换
  • api key申请地址:https://console.volcengine.com/iam/keymanage
  • 🖼 图片上传(人物图像)
  • 支持 JPG / PNG 格式
  • 自动保存到本地并生成公网可访问 URL
  • 🎵 音频上传(驱动音频)
  • 支持 MP3 / WAV 格式
  • 作为数字人说话 / 表情驱动音频
  • 🔍 人物 / 主体检测
  • 调用即梦目标检测接口
  • 自动识别图片中的多个主体
  • 返回每个主体对应的 Mask
  • ✂️ Mask 裁剪与可视化预览
  • 根据 Mask 自动裁剪主体区域
  • 按最长边缩放,统一预览尺寸
  • 🧩 主体选择机制
  • 可从多个检测到的主体中选择
  • 支持「不使用 Mask,直接使用原图」模式
  • ✏️ Prompt 驱动控制
  • 支持输入文本 Prompt
  • 用于控制表情、稳定性、真实感、风格等
  • 🎬 数字人视频生成
  • 提交视频生成任务
  • 自动轮询任务状态
  • 📥 视频结果展示与下载
  • 生成完成后可直接在线播放
  • 支持下载 MP4 文件
  • 视频按「时间 + UUID」自动命名并保存

二、运行环境要求

  • Python ≥ 3.9(推荐 3.10)
  • 操作系统:Linux / macOS / Windows
  • 一个 可公网访问的静态文件服务(用于图片和音频 URL)
⚠️ 火山引擎接口要求:
图片和音频 URL 必须可以被公网直接访问

三、依赖安装

1️⃣ 创建虚拟环境(强烈推荐)

 python -m venv venv source venv/bin/activate 

Windows:

 venv\\Scripts\\activate 

2️⃣ 安装 Python 依赖

直接安装:

 pip install streamlit requests pillow numpy 

或使用 requirements.txt

 streamlit>=1.30 requests>=2.28 Pillow>=9.5 numpy>=1.23 
 pip install -r requirements.txt 

四、目录结构说明

 . ├── app.py # Streamlit 主程序 ├── res/ # 生成的视频结果保存目录 ├── requirements.txt # Python 依赖 └── README.md 

请确保 res 目录存在:

mkdir -p res 

五、静态文件服务配置(非常重要)

项目中会将 上传的图片 / 音频保存到本地目录,并通过 HTTP 方式对外暴露。

示例配置(本地测试)

 UPLOAD_DIR ="/home/yourname/data/uploads" PUBLIC_BASE_URL ="http://你的IP:8000"

启动一个简单的 HTTP 服务:

cd /home/yourname/data/uploads python -m http.server 8000
生产环境建议使用:
nginx
caddy
cloudflared

生产环境配置步骤

  • 安装cloudflared
# 下载wget https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64 # 改名mv cloudflared-linux-amd64 cloudflared # 加执行权限chmod +x cloudflared # 移到 PATHsudomv cloudflared /usr/local/bin/ 
  • 启动运行

本地启动 HTTP 服务

cd /home/yourname/data/uploads python -m http.server 8000

新开一个终端,启动隧道

 cloudflared tunnel --url http://localhost:8000 

会看到类似输出:

https://random-name.trycloudflare.com

访问你的音频

https://random-name.trycloudflare.com/test.mp3

六、启动项目

 streamlit run app.py 

浏览器访问:

 http://localhost:8501 

七、使用流程说明

  1. 打开页面,输入 Access Key / Secret Key
  2. 上传一张 人物图片
  3. 上传一段 音频文件
  4. (可选)输入 Prompt 描述
  5. 点击「开始检测」
  6. 从检测到的主体中选择目标(或选择原图)
  7. 等待视频生成完成
  8. 在线预览并下载生成的视频

八、常见注意事项

  • 建议使用 清晰正脸人物图像
  • 音频时长不宜过长(建议 < 60 秒)
  • 若接口返回失败,请重点检查:
  • AK / SK 是否正确
  • 图片 / 音频 URL 是否能被公网访问
  • 文件格式是否符合要求

九、适用场景

  • 数字人 / 虚拟人能力演示
  • 内部技术验证
  • API 调用示例参考
  • 二次开发或功能扩展基础工程

十、项目地址及页面

  • https://github.com/min-star/omnihuman-api.git

页面展示

在这里插入图片描述

十一、免责声明

本项目仅作为 火山引擎即梦 API 使用示例(Demo)

生成效果、接口能力、配额限制等以火山引擎官方文档为准。

参考链接:https://jimeng.jianying.com/ai-tool/generate?type=digitalHuman


十二、可扩展方向(建议)

  • Docker 一键部署
  • AK / SK 使用环境变量管理
  • 多任务队列 / 并发控制
  • 历史任务与结果管理
  • Prompt 模板与预设管理

如需进一步定制或扩展,请根据实际业务需求进行二次开发。

Read more

ClawdBot步骤详解:前端无法访问时的SSH端口转发与Token链接获取

ClawdBot步骤详解:前端无法访问时的SSH端口转发与Token链接获取 1. ClawdBot是什么:你的本地AI助手,不依赖云端服务 ClawdBot 是一个真正属于你自己的个人 AI 助手——它不是网页上点几下就用的 SaaS 工具,而是一个能完整运行在你本地设备(笔记本、台式机、甚至树莓派)上的独立应用。它不像很多“AI助手”那样把你的提示词悄悄发到远端服务器,而是把模型推理、对话管理、插件调度全部留在你自己的机器里。 它的后端由 vLLM 驱动,这意味着你能以极高的吞吐和极低的延迟运行像 Qwen3-4B-Instruct 这样的高质量开源模型。vLLM 的 PagedAttention 技术让显存利用更高效,4GB 显存也能稳稳跑起 4B 级别模型,响应快、不卡顿、不排队。 更重要的是,ClawdBot 的设计哲学是“可控即可靠”。所有配置文件明文可读、所有模型路径清晰可见、所有日志本地留存。你不需要成为 DevOps

Flutter Web:混合开发的最佳实践

Flutter Web:混合开发的最佳实践 一次编写,多端运行。Flutter Web 让前端开发更加高效。 一、Flutter Web 的优势 作为一名追求像素级还原的 UI 匠人,我对跨平台解决方案有着严格的要求。Flutter Web 不仅让我们能够使用相同的代码库构建 Android、iOS 和 Web 应用,还提供了出色的性能和一致的用户体验。它就像是一把瑞士军刀,为前端开发带来了前所未有的便利。 二、环境搭建 1. 启用 Web 支持 # 启用 Web 支持 flutter config --enable-web # 检查可用设备 flutter devices # 创建项目 flutter create my_web_app cd my_

FaceRecon-3D部署指南:SSL证书配置与HTTPS安全访问Web UI全流程

FaceRecon-3D部署指南:SSL证书配置与HTTPS安全访问Web UI全流程 1. 为什么需要为FaceRecon-3D配置HTTPS 你刚拉起FaceRecon-3D镜像,点击HTTP按钮就能打开Web界面——这很爽,但也很危险。 默认的HTTP访问是明文传输:上传的人脸照片、系统返回的UV纹理图、甚至浏览器与服务端之间的所有交互数据,都像写在明信片上一样裸奔在网络中。任何中间节点(比如公司内网代理、公共Wi-Fi路由器)都可能截获、窥探甚至篡改这些数据。尤其当你要处理真实用户的人脸图像时,隐私合规和数据安全就不再是“可选项”,而是硬性门槛。 更实际的问题是:现代浏览器对HTTP页面越来越不友好。Chrome会把HTTP站点标为“不安全”,Safari可能直接阻止某些API调用,而Gradio界面里的文件上传、Canvas渲染等交互功能,在非安全上下文中会受限甚至失效。你辛辛苦苦部署好的3D重建能力,可能因为一个红色的“不安全”提示就被用户关掉。 所以,这篇指南不讲“能不能用”,而是聚焦“怎么用得安心、专业、可持续”。我们将从零开始,手把手完成SSL证书申请、N

Web 接口性能测试最佳实践:从“压一压”到“压明白”

Web 接口性能测试最佳实践:从“压一压”到“压明白”

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术! 很多团队都做过接口压测,但真正把压测当成工程能力来建设的并不多。 有人压完只看一个 QPS,有人把接口压挂就当完成任务,也有人压测结论完全无法指导扩容和优化。 本文结合实际后端工程经验,系统总结 Web 接口性能测试的最佳实践,重点不在工具,而在思路、方法和常见坑位。 一、先想清楚:你为什么要做性能测试? 这是性能测试中最容易被忽略、却最重要的一步。 ❌ 常见但无效的目标 * “看看 QPS 能跑多少” * “压一压,看会不会挂” * “老板让做个压测报告” 这些目标的问题在于:即使你测完了,也不知道结论能用来干什么。 ✅ 有效、可落地的目标 * SLA 验证:P95 < 200ms,错误率 < 0.1%