国产开源版 Sora 来了!可商用,4090 单卡推理,A6000 可微调
自 OpenAI 推出 Sora 以来,AI 视频生成模型已然在全球范围内百花齐放。然而,近半年之后,业内却仍未出现一个开源的、满足商业级应用需求的视频生成模型。
今天,首个开源的商用级视频生成模型——CogVideoX 2B,它来了。
CogVideoX 2B 是与智谱 AI「清影」同源的开源视频生成模型,视频长度为 6 秒,帧率为 8 帧/秒,视频分辨率为 720*480,提示词上限为 226 个 token。
「清影」是智谱 AI 近期发布的 AI 生视频产品,30 秒即可完成任意文/图生视频任务,目前已在 AI 助手「智谱清言」上线,被誉为「国内首个人人可用的 Sora」。
值得一提的是,CogVideoX 2B 在 FP-16 精度下的推理仅需 18GB 显存,微调则只需 40GB 显存,这意味着单张 4090 显卡即可进行推理,单张 A6000 显卡即可完成微调。
代码仓库:https://github.com/THUDM/CogVideo
模型下载:https://huggingface.co/THUDM/CogVideoX-2b
技术报告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
此次 CogVideoX 2B 以及后续更大版本视频生成模型的开源,旨在让每一位开发者、每一家企业都能自由地开发属于自己的视频生成模型,进而推动整个行业的快速迭代与创新发展。
另外,智谱 AI 为视频质量的提升预留了广阔的空间,期待开发者们在提示词优化、视频长度、帧率、分辨率、场景微调以及围绕视频的各类功能开发上贡献开源力量。
效果怎么样?
除了在单张 4090 显卡即可进行推理,在单张 A6000 显卡即可完成微调,CogVideoX 2B 的视频生成效果究竟怎么样?我们可以看看以下三个实例:
(原始 prompt 为英文,灰色字体为对应的中文翻译)
prompt:
A detailed wooden toy ship with intricately carved masts and sails is seen gliding smoothly over a plush, blue carpet that mimics the waves of the sea. The ship's hull is painted a rich brown, with tiny windows. The carpet, soft and textured, provides a perfect backdrop, resembling an oceanic expanse. Surrounding the ship are various other toys and children's items, hinting at a playful environment. The scene captures the innocence and imagination of childhood, with the toy ship's journey symbolizing endless adventures in a whimsical, indoor setting.
(一艘精致的木制玩具船,桅杆和船帆上雕刻着复杂的图案,在模拟海浪的蓝色长毛绒地毯上平稳地滑行。船身漆成浓郁的棕色,并带有小窗户。地毯柔软而有质感,提供了一个完美的背景,就像一片广阔的海洋。船的周围环绕着各种玩具和儿童用品,暗示着一个充满童趣的环境。这个场景捕捉到了童年的天真和想象力,玩具船的旅程象征着在异想天开的室内环境中的无尽冒险。)
清影视频 demo1
prompt:
The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded pine trees a steep mountain slope, dust kicks up it


