【AIGC】即梦omnihuaman-api调用实现

即梦数字人视频生成(Streamlit Demo)

基于 火山引擎即梦(Jimeng)CV API 的数字人视频生成示例项目。

支持 图片 + 音频驱动 的数字人视频生成流程,集成了主体检测、Mask 选择、Prompt 控制、视频生成与下载等完整功能,适合 内部测试 / 技术演示 / 二次开发


一、功能概览

✅ 核心功能

  • 🔐 AK / SK 在线填写
  • 支持火山引擎 Access Key / Secret Key 在页面中直接输入
  • 无需写死在代码中,便于多账号切换
  • api key申请地址:https://console.volcengine.com/iam/keymanage
  • 🖼 图片上传(人物图像)
  • 支持 JPG / PNG 格式
  • 自动保存到本地并生成公网可访问 URL
  • 🎵 音频上传(驱动音频)
  • 支持 MP3 / WAV 格式
  • 作为数字人说话 / 表情驱动音频
  • 🔍 人物 / 主体检测
  • 调用即梦目标检测接口
  • 自动识别图片中的多个主体
  • 返回每个主体对应的 Mask
  • ✂️ Mask 裁剪与可视化预览
  • 根据 Mask 自动裁剪主体区域
  • 按最长边缩放,统一预览尺寸
  • 🧩 主体选择机制
  • 可从多个检测到的主体中选择
  • 支持「不使用 Mask,直接使用原图」模式
  • ✏️ Prompt 驱动控制
  • 支持输入文本 Prompt
  • 用于控制表情、稳定性、真实感、风格等
  • 🎬 数字人视频生成
  • 提交视频生成任务
  • 自动轮询任务状态
  • 📥 视频结果展示与下载
  • 生成完成后可直接在线播放
  • 支持下载 MP4 文件
  • 视频按「时间 + UUID」自动命名并保存

二、运行环境要求

  • Python ≥ 3.9(推荐 3.10)
  • 操作系统:Linux / macOS / Windows
  • 一个 可公网访问的静态文件服务(用于图片和音频 URL)
⚠️ 火山引擎接口要求:
图片和音频 URL 必须可以被公网直接访问

三、依赖安装

1️⃣ 创建虚拟环境(强烈推荐)

 python -m venv venv source venv/bin/activate 

Windows:

 venv\\Scripts\\activate 

2️⃣ 安装 Python 依赖

直接安装:

 pip install streamlit requests pillow numpy 

或使用 requirements.txt

 streamlit>=1.30 requests>=2.28 Pillow>=9.5 numpy>=1.23 
 pip install -r requirements.txt 

四、目录结构说明

 . ├── app.py # Streamlit 主程序 ├── res/ # 生成的视频结果保存目录 ├── requirements.txt # Python 依赖 └── README.md 

请确保 res 目录存在:

mkdir -p res 

五、静态文件服务配置(非常重要)

项目中会将 上传的图片 / 音频保存到本地目录,并通过 HTTP 方式对外暴露。

示例配置(本地测试)

 UPLOAD_DIR ="/home/yourname/data/uploads" PUBLIC_BASE_URL ="http://你的IP:8000"

启动一个简单的 HTTP 服务:

cd /home/yourname/data/uploads python -m http.server 8000
生产环境建议使用:
nginx
caddy
cloudflared

生产环境配置步骤

  • 安装cloudflared
# 下载wget https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64 # 改名mv cloudflared-linux-amd64 cloudflared # 加执行权限chmod +x cloudflared # 移到 PATHsudomv cloudflared /usr/local/bin/ 
  • 启动运行

本地启动 HTTP 服务

cd /home/yourname/data/uploads python -m http.server 8000

新开一个终端,启动隧道

 cloudflared tunnel --url http://localhost:8000 

会看到类似输出:

https://random-name.trycloudflare.com

访问你的音频

https://random-name.trycloudflare.com/test.mp3

六、启动项目

 streamlit run app.py 

浏览器访问:

 http://localhost:8501 

七、使用流程说明

  1. 打开页面,输入 Access Key / Secret Key
  2. 上传一张 人物图片
  3. 上传一段 音频文件
  4. (可选)输入 Prompt 描述
  5. 点击「开始检测」
  6. 从检测到的主体中选择目标(或选择原图)
  7. 等待视频生成完成
  8. 在线预览并下载生成的视频

八、常见注意事项

  • 建议使用 清晰正脸人物图像
  • 音频时长不宜过长(建议 < 60 秒)
  • 若接口返回失败,请重点检查:
  • AK / SK 是否正确
  • 图片 / 音频 URL 是否能被公网访问
  • 文件格式是否符合要求

九、适用场景

  • 数字人 / 虚拟人能力演示
  • 内部技术验证
  • API 调用示例参考
  • 二次开发或功能扩展基础工程

十、项目地址及页面

  • https://github.com/min-star/omnihuman-api.git

页面展示

在这里插入图片描述

十一、免责声明

本项目仅作为 火山引擎即梦 API 使用示例(Demo)

生成效果、接口能力、配额限制等以火山引擎官方文档为准。

参考链接:https://jimeng.jianying.com/ai-tool/generate?type=digitalHuman


十二、可扩展方向(建议)

  • Docker 一键部署
  • AK / SK 使用环境变量管理
  • 多任务队列 / 并发控制
  • 历史任务与结果管理
  • Prompt 模板与预设管理

如需进一步定制或扩展,请根据实际业务需求进行二次开发。

Read more

【案例共创】基于华为开发者空间-云开发环境(容器)与Versatile Agent构建AI轻量级智能笑话机器人助手

【案例共创】基于华为开发者空间-云开发环境(容器)与Versatile Agent构建AI轻量级智能笑话机器人助手

最新案例动态,请查阅【案例共创】基于华为开发者空间-云开发环境(容器)与Versatile Agent构建AI轻量级智能笑话机器人助手。小伙伴们快来进行实操吧! 本案例由开发者:liujxu提供 一、概述 1.1 适用对象 * 个人开发者 * 高校学生 1.2 案例流程 本案例基于华为开发者空间-云开发环境(容器)与Versatile Agent,构建一个轻量级、趣味性强的AI应用——“智能笑话机器人”。该机器人能够理解用户的意图,并以一个幽默风趣的喜剧演员的口吻,为用户提供源源不断的笑话,为日常生活增添一份乐趣。 通过本案例的实践,开发者可以体验到从Versatile Agent智能体(Agent)的创建、后端服务的开发,到最终Web应用部署的全过程。这不仅是一个有趣的AI应用开发入门教程,也是一个展示如何将大型语言模型(LLM)的能力快速封装成具体产品的典型示例。 说明: 1. 登录华为开发者空间,VS Code安装Huawei Developer Space插件,远程创建、

基于STM32的智能家居安防系统设计与实现(完整项目)

基于STM32的智能家居安防系统设计与实现(完整项目)

基于STM32的智能家居安防系统设计与实现 摘要 随着物联网技术、嵌入式技术和智能控制技术的快速发展,智能家居安防系统逐渐成为现代家庭生活的重要组成部分,其能够实时监测家庭环境安全状态、防范安全隐患,为居民提供安全、便捷、舒适的居住环境。传统家庭安防方式多采用单一设备监测,存在功能分散、监测不全面、无法远程管控、报警响应滞后等问题,难以满足现代家庭对安防的多元化、智能化需求。 本文设计并实现了一套基于STM32F103C8T6单片机的智能家居安防系统,整合密码锁、温湿度采集、煤气烟雾检测、火灾报警、防盗报警、远程照明控制、实时时钟显示、OLED本地显示、WiFi手机APP远程监控、APP远程时间修改、本地蜂鸣器报警与远程报警联动等11项核心功能,构建了完整的智能家居安防系统架构。系统以STM32F103C8T6为核心控制单元,搭载密码锁模块、温湿度传感器、煤气烟雾传感器、火焰传感器、人体红外/门磁传感器、蜂鸣器报警模块、LED照明模块、实时时钟模块、OLED显示模块及WiFi通信模块,通过多模块协同工作,实现家庭安防的全方位监测、本地与远程双重管控,兼顾安全性、便捷性和实用性。

75元!复刻Moji 2.0 小智 AI 桌面机器人,基于乐鑫ESP32开发板,内置DeepSeek、Qwen大模型

文末联系小编,获取项目源码 Moji 2.0 是一个栖息在你桌面上的“有灵魂的伴侣”,采用乐鑫 ESP32-C5开发板,配置 1.5寸 360x360 高清屏,FPC 插接方式,支持 5G Wi-Fi 6 极速连接,内置小智 AI 2.0 系统,主要充当智能电子宠物的角色,在你工作学习枯燥时,通过圆形屏幕上的动态表情包卖萌解压,提供情绪陪伴;同时它也是功能强大的AI 语音助手,支持像真人一样流畅的连续对话,随时为你查询天气、解答疑惑或闲聊解闷,非常适合作为极客桌搭或嵌入式学习的开源平台。 🛠️ 装配进化 告别手焊屏幕的噩梦。全新设计的 FPC 插座连接,排线一插即锁,将复刻门槛降至最低。 🚀 性能进化 主控升级为 ESP32-C5。支持 5GHz Wi-Fi 6,

lingbot-depth-vitl14企业应用指南:机器人避障系统中替代高精度LiDAR的降本方案

lingbot-depth-vitl14企业应用指南:机器人避障系统中替代高精度LiDAR的降本方案 想让你的机器人“看”得更远、更准,又不想为昂贵的激光雷达买单?今天,我们就来聊聊一个能帮你省下大笔硬件成本的技术方案——lingbot-depth-vitl14深度估计模型。 简单来说,这个模型能让你的机器人用普通的RGB摄像头,就“猜”出周围环境的深度信息,实现精准避障。它就像一个给机器人安装的“空间感知大脑”,把二维的彩色画面,转换成三维的距离地图。 对于企业而言,这意味着什么?意味着你可以用几百块的摄像头,去实现过去需要几万甚至十几万激光雷达才能做到的部分功能。这不仅仅是省钱,更是为机器人、自动驾驶、AR/VR等应用打开了低成本、高性能的新大门。 接下来,我会带你深入了解这个模型,看看它如何在机器人避障这个核心场景中,真正落地并创造价值。 1. 为什么机器人避障需要深度信息? 在聊技术方案之前,我们先得搞清楚一个基本问题:机器人是怎么“看见”并避开障碍物的? 想象一下,你蒙着眼睛在房间里走路,很容易撞到桌子椅子。机器人也一样,它需要知道“前面有没有东西”以及“那个