AI 编剧 × 导演思维工具全景指南(2025)

摘要:本文系统梳理了当前 AI 辅助影视创作领域的主流工具与开源项目,涵盖故事结构搭建、角色管理、对话生成、分镜预可视化、镜头运动控制、视频 Agent 框架六大维度,重点收录 GitHub 开源项目,兼顾商业工具与国内平台,适合编剧、导演、短剧创作者及影视 AI 研究者参考。

一、为什么要把编剧和导演分开讲

很多人把"AI 写剧本"和"AI 拍视频"混为一谈,但这两件事在思维层面是截然不同的。

编剧思维关心的是"写什么":故事结构、人物弧线、情节逻辑、台词张力。它的输出是文字,是剧本,是一套叙事方案。

导演思维关心的是"怎么拍":镜头语言、景别调度、运镜设计、场面调度、视觉节奏。它的输出是画面,是分镜,是一套视觉表达方案。

两套思维对应两类工具,工作流上是上下游关系——先有剧本,再有分镜,再有视频。但 AI 正在把这条流水线压缩得越来越短,甚至出现了"输入一句话,输出一集短剧"的全流程 Agent。

本文按这条工作流从上到下梳理,每个环节都会标注哪些是开源项目(⭐),哪些是商业工具。


二、编剧思维层:故事结构 × 角色管理 × 对话生成

2.1 故事结构搭建

故事结构是编剧工作的骨架。三幕式、英雄旅程、Blake Snyder 节拍表(Beat Sheet)——这些经典框架 AI 已经能熟练运用,并在此基础上生成结构化的故事方案。

DeepStory
专为影视剧本设计,自动生成三幕式结构,内置角色弧线构建器和"转折点生成器"。对好莱坞叙事范式支持很好,中文内容支持有限,但结构化能力是同类工具里最强的之一。

Dramatron ⭐ 开源 · Google DeepMind
Google DeepMind 出品的开源编剧协作工具,核心设计理念是"作者在回路"(writer-in-the-loop)——AI 不是替代编剧,而是在编剧的引导下维护跨场景的主题一致性和情节连贯性。适合有技术能力的编剧或研究者,需要一定的部署成本。

# 克隆并运行 Dramatrongit clone https://github.com/google-deepmind/dramatron cd dramatron pip install-r requirements.txt 

Plottr AI
可视化故事时间线工具,AI 辅助生成节拍表建议,支持导出到 Final Draft、Scrivener。对于习惯"先画地图再写故事"的编剧来说非常顺手,尤其适合多线叙事的剧集结构规划。

2.2 角色与世界观管理

角色一致性是长篇剧本最容易崩的地方。第三集里的人物性格和第一集对不上,世界观设定前后矛盾——这些问题 AI 的"记忆"功能可以有效缓解。

Sudowrite
核心功能是 Story Bible:把角色设定、世界观规则、场景细节全部存入,AI 写作时自动参照,避免前后矛盾。还有专门用来头脑风暴情节转折的"What If"工具。对话和描写的文学质感在同类工具里属于上游水平。

NovelAI
Lorebook 功能著称,可以为每个角色、地点、道具建立详细档案,AI 生成内容时持续参照这些设定。支持自定义模型,隐私保护做得比较好,适合有世界观构建需求的编剧。

ChatGPT / Claude(自定义系统提示)
不是专门的编剧工具,但通过精心设计的 System Prompt,可以把它变成"记住你所有角色设定"的编剧助手。灵活性最高,但需要自己维护提示词工程。

2.3 对话生成与润色

台词是编剧最难的部分。AI 在这里能做的是"提供选项",而不是"直接给答案"——好的台词仍然需要编剧的判断力。

Jasper AI(Script Mode)
对话生成速度快,语气调节功能强,可以指定"戏剧性"“喜剧性”"紧张感"等情绪基调。更适合短视频脚本、广告台词这类短平快的场景,长篇剧本的情感深度稍显不足。

ShortlyAI
极简界面,专注于"不打断创作流"的写作体验。通过 /instruct 指令引导 AI 生成下一段对话或场景,适合有明确方向但需要快速填充内容的编剧。

Writesonic
对话生成之外,还有可读性检测功能,会提示台词是否过于复杂或冗长。对于需要照顾大众受众的剧本(比如短剧、网剧)比较实用。

2.4 剧本格式化输出

专业剧本有严格的格式规范(场景标题、动作行、对白、括号说明),这类工具专门处理格式问题。

Final Draft
行业标准剧本软件。本身不是 AI 工具,但很多 AI 工具(Plottr、Jasper 等)都支持导出到 Final Draft 格式。如果要投稿影视公司,最终格式化这一步基本绕不开它。

Storywork
内置行业标准格式,AI 生成的内容直接符合剧本排版规范,还有 AI 朗读功能,可以把角色台词用 AI 语音演绎出来,帮助编剧感受节奏和语气是否对。2025 年评价较高。

2.5 受众预测与剧本评估

这一层是很多编剧没想到 AI 能做的事——在剧本写完之前就预测它的市场表现。

ScriptBook
目前最专业的剧本预测分析工具。上传剧本 PDF,AI 会分析受众年龄/性别分布、情感曲线、与历史票房数据的相似度,并给出"成功概率"评分。好莱坞部分制片公司已在用它做初步筛选。


三、导演思维层:分镜 × 运镜 × 场面调度 × 视频生成

3.1 全流程自动化:AI 导演 Agent

这一类工具试图模拟导演的整体决策链——从剧本拆解到镜头规划再到视频生成,是目前学术界最活跃的方向。

MovieAgent ⭐ 开源 · 新加坡国立大学 Show Lab
2025 年 3 月发布,核心是分层 CoT(链式思维)推理,自动完成剧本拆解 → 场景规划 → 镜头设计 → 摄影参数设定的全流程。内置 Shot Plan Agent,会按照"确定景别 → 确定构图 → 确定运镜"的结构化工作流输出每个镜头的拍摄方案。是目前开源项目里对导演决策过程模拟最系统的之一。

FilmAgent ⭐ 开源 · 哈尔滨工业大学深圳校区
多 Agent 协作框架,在 3D 虚拟空间里模拟真实剧组分工——导演 Agent、编剧 Agent、摄影 Agent 各司其职,互相协商完成拍摄任务。最大的特点是角色走位和摄像机位置在虚拟空间里同步规划,而不是单纯生成文字描述。

# FilmAgent 核心调用示例(简化)from filmagent import DirectorAgent, CinematographerAgent director = DirectorAgent(script="your_script.txt") shot_plan = director.plan_shots()# 导演 Agent 规划镜头序列 cinematographer = CinematographerAgent() camera_params = cinematographer.set_params(shot_plan)# 摄影 Agent 设定参数

ViMax ⭐ 开源 · 香港大学
副标题直接写着"Director, Screenwriter, Producer, and Video Generator All-in-One"。支持多机位模拟拍摄,在同一场景里维持角色位置和背景的一致性,解决了多镜头切换时画面不连贯的问题。是目前开源项目里对导演调度思维模拟最完整的之一。

ShotStudio ⭐ 开源
覆盖故事/剧本写作、角色/场景/动作设计、分镜创作、视频片段生成、VFX、音频设计(BGM、配音、音效)全链路。相当于把整个剧组的工作流都塞进一个框架里,是目前开源项目里覆盖面最广的影视制作 pipeline。

3.2 镜头设计与运镜控制

这一层专注于单个镜头的设计——景别、构图、摄像机运动轨迹,是导演语言最具体的表达。

MotionCanvas(Adobe Research) ⭐ 开源 · SIGGRAPH 2025
Adobe Research 出品,入选 SIGGRAPH 2025。从静态图像生成视频片段,用户可以精确控制摄像机运动和物体运动(全局运动 + 局部运动分离控制)。对于想要精确指定推拉摇移的导演来说,这是目前开源项目里控制粒度最细的工具。

⚠️ 注意区分:这里的 MotionCanvas 是 Adobe Research 的学术项目(Doubiiu/MotionCanvas),和另一个同名的 TypeScript 动画库(motion-canvas/motion-canvas)是两个不同的项目。

Veo 3 Prompting Guide ⭐ 开源(提示词工程)
Google Veo 3 的非官方提示词指南,系统整理了如何用自然语言描述镜头语言:

类别示例关键词
景别ECU / CU / MS / WS / EWS
运镜dolly in、rack focus、crane shot、handheld
光线golden hour、motivated lighting、practical lights
镜头感anamorphic lens、shallow depth of field、lens flare

对于用文字指挥 AI 生成电影感视频的导演来说,这份指南相当于一本"AI 摄影指导手册"。

Awesome-Controllable-Video-Generation ⭐ 开源(论文列表)
可控视频生成方向的论文合集,持续更新。按控制类型分类:摄像机控制、运动控制、外观控制、时序控制等。适合想深入了解这个方向技术进展的导演/研究者,相当于这个领域的地图。

3.3 分镜与预可视化(Pre-visualization)

导演在正式拍摄前用分镜板(Storyboard)和预可视化(Previs)来规划每个场景的视觉呈现,这一层的 AI 工具正在快速成熟。

CineVision ⭐ 开源
论文标题:“An Interactive Pre-visualization Storyboard System for Director–Cinematographer Collaboration”,2025 年 7 月发表。专门针对导演与摄影师协作场景设计,交互式分镜系统,支持在分镜阶段就模拟不同镜头方案的视觉效果,帮助导演和摄影师在开拍前对齐视觉语言。

Higgsfield Popcorn
2025 年评价较高的 AI 分镜生成工具,输入场景描述自动生成带景别标注的分镜图,支持导出为 PDF 分镜板格式。对独立导演和短片创作者比较友好。

Shai Creative
专为影视制作设计的 AI 分镜生成器,支持上传参考图片来统一视觉风格,生成的分镜图可以直接标注摄像机角度和运动方向。

3.4 视频 Agent 框架:让 AI 理解并操作视频

这一类工具不是"生成视频",而是让 AI 能够理解、分析、剪辑已有视频,更接近剪辑导演和后期导演的工作方式。

video-db/Director ⭐ 开源
视频 Agent 框架,AI 可以对视频进行推理并执行复杂任务:搜索特定片段、自动剪辑、按主题编译素材、生成新内容插入视频流。可以理解为"能看懂视频并按导演意图操作视频的 AI 助手",支持实时流式输出结果。

Awesome-Video-Diffusion(Show Lab) ⭐ 开源(论文列表)
Show Lab 维护的视频扩散模型论文列表,覆盖视频生成、编辑、修复、理解等方向,分类细致,更新频繁。

Awesome-Video-Editing ⭐ 开源(论文列表)
电影感视频编辑方向的论文合集,从电影摄影学角度分类整理,涵盖镜头切换、色彩分级、场景理解等方向。


四、国内工具专区

SkyReels-V1 ⭐ 开源 · 昆仑万维

GitHubSkyworkAI/SkyReels-V1

2025 年 2 月开源,全球第一个以人物为中心的视频基础模型,专为 AI 短剧创作设计。在 HunyuanVideo 基础上用千万级高质量影视素材微调,支持 1080P 60 帧输出,可将分镜自动转换为连续视频,场景和人物一致性在开源模型里属于顶级水平。

git clone https://github.com/SkyworkAI/SkyReels-V1 cd SkyReels-V1 pip install-r requirements.txt # 支持 RTX 4090 本地部署

拍我 AI V5.5

国内目前唯一能够一键生成"分镜 + 音频"实现完整叙事的 AI 视频大模型。V5.5 的核心突破在于:AI 视频开始具备导演思维——它不再只是生成会动的画面,而是能理解叙事节奏,自动规划镜头切换时机和音频配合方式。

创一 AI(CreatifyOne)

地址chuangyiai.com

短剧编剧圈评价较高的多智能体协同创作平台,整合编剧 Agent、分镜 Agent、导演 Agent 协同工作。支持上传小说原稿直接转化为短剧剧本格式,对竖屏短剧的节奏和钩子设计有专门优化,定位"AI 员工外包团队"。

阿里云短剧漫剧 AI 解决方案

地址aliyun.com/benefit/scene/playlet

企业级解决方案,覆盖剧本创作 → 分镜生成 → 视频生成 → 配音配乐全链路,支持文生视频、图生视频、自动配音等多模态能力。适合有批量生产需求的短剧制作公司。

青萍 AI 剧本 Agent

专为 AI 漫剧/图文剧设计的免费工具,4 步生成包含分镜、对话、场景提示的完整剧本,适合出版行业做 IP 转化的团队快速出稿。


五、工具选择速查表

创作环节推荐工具是否开源
故事结构搭建DeepStory、Plottr AI商业
角色/世界观管理Sudowrite、NovelAI商业
对话生成润色Jasper、ShortlyAI商业
剧本协作(学术)Dramatron
全流程导演 AgentMovieAgent、FilmAgent、ViMax
镜头运动精确控制MotionCanvas
运镜提示词指南Veo 3 Prompting Guide
分镜/预可视化CineVision、Higgsfield✅/商业
视频理解与智能剪辑video-db/Director
可控视频生成综述Awesome-Controllable-Video-Generation
国内短剧全流程SkyReels-V1、创一 AI✅/商业
商业级视频生成Runway Gen-3、Kling AI、Pika商业

六、写在最后:工具之外

工具在快速迭代,但有几件事值得记住。

第一,编剧思维和导演思维是两套不同的能力,AI 工具也是分层的。用生成视频的工具来做故事结构,或者用剧本工具来规划运镜,都是用错了地方。

第二,大多数专业创作者的实际工作流是组合使用:用 Plottr 或 DeepStory 搭结构,用 Sudowrite 管角色,用 ChatGPT/Claude 快速生成对话初稿,用 FilmAgent 或 MotionCanvas 规划镜头,最后用 Final Draft 做格式化。单一工具很难覆盖全部环节。

第三,开源项目的价值不只是"免费"。MovieAgent、FilmAgent、ViMax 这些学术项目的真正价值在于:它们在尝试回答一个根本性的问题——AI 能不能真正模拟导演的决策思维,而不只是生成漂亮的画面。这个问题的答案,2025 年还在形成中。


参考资源showlab/MovieAgentHITsz-TMG/FilmAgentHKUDS/ViMaxDoubiiu/MotionCanvasvideo-db/DirectorSkyworkAI/SkyReels-V1google-deepmind/dramatronsnubroot/Veo-3-Prompting-Guide

Read more

「源力觉醒 创作者计划」实测解析!文心一言 4.5 开源版本地化部署的表现与潜力

「源力觉醒 创作者计划」实测解析!文心一言 4.5 开源版本地化部署的表现与潜力

引言 2025 年 6 月 30 日,百度文心大模型 4.5 系列正式开源,并首发于 GitCode 平台!这一重磅消息在 AI 领域掀起了不小的波澜。作为国内最早布局大模型研发的企业之一,百度所推出的文心大模型目前已跻身国内顶级大模型行列,此次开源无疑将对各行各业产生深远影响,进一步加速大模型的发展进程。接下来,就让我们一同探究文心一言 4.5 开源版本地化部署的表现与潜力。 文章目录 * 引言 * 一、文心大模型 ERNIE 4.5 开源介绍 * 1.1 开源版本介绍 * 1.1 ERNIE 4.5 的主要特点和区别 * 二、文心ERNIE 4.5 技术解析 * 2.1

从低代码到 AI 智能体:VTJ.PRO 2.0 深度解析

技术白皮书 版本 1.0 | 2026年3月 摘要 随着企业数字化转型进入深水区,软件开发效率与质量的双重压力推动着开发工具的持续演进。VTJ.PRO 作为一款 AI 驱动的 Vue3 低代码开发平台,在 2026 年初发布的 2.0 版本中实现了从“低代码工具”到“AI 原生应用开发平台”的质变跃迁。本白皮书将深入解析 VTJ.PRO 2.0 的核心架构、技术创新及其实践价值,揭示其如何通过“AI 智能体+前后端一体+企业级工程化”的三位一体架构,重新定义现代应用开发范式。 第一章:背景与愿景 1.1 低代码开发的演进困局 传统低代码平台在过去十年中虽然显著提升了开发效率,但也面临三大核心挑战: 平台锁定风险:多数平台生成代码依赖私有运行时,一旦采用便难以脱离,

【机器人开发四】从零开始创建一个ROS2机器人工程(1):创建一个ROS2小车,掌握ROS2工程以及消息订阅机制

【机器人开发四】从零开始创建一个ROS2机器人工程(1):创建一个ROS2小车,掌握ROS2工程以及消息订阅机制

【机器人开发四】从零开始创建一个ROS2机器人工程(1):熟悉ROS2工程目录,做一个turtle3小车 本文将手把手教你从零开始搭建一个能用键盘控制移动的两轮机器人。基于 ROS 2 Jazzy + Gazebo Harmonic 环境。 本文的目的 1. 深入理解一个标准的ROS2工程的目录结构 2. 理解ROS2工程中最核心的文件 3. 掌握ROS2项目的启动方法 4. 创建一个turtle3机器人,熟悉话题的发布订阅机制 文章目录 * 【机器人开发四】从零开始创建一个ROS2机器人工程(1):熟悉ROS2工程目录,做一个turtle3小车 * 本文的目的 * @[toc] * 1. 创建工作空间和功能包 * 2. 编写 Launch 文件 * 3. 配置 CMakeLists.txt * 4. 编写机器人 URDF 模型 * 5. 在 RViz2 中可视化机器人 * 6.

开源:AI+无人机巡检系统项目调研

主流开源AI无人机巡检项目调研 本部分系统梳理了当前主流的开源无人机巡检相关项目,涵盖飞控系统、地面站软件、AI视觉识别、数据处理等多个技术栈,为商业化产品开发提供技术选型参考。 一、飞控与地面站开源项目 1.1 PX4 Autopilot 项目地址:github.com/PX4/PX4-Autopilot 开源协议:BSD 3-Clause 项目简介:由Dronecode基金会(Linux基金会旗下)维护的专业级开源自动驾驶仪软件,是全球最广泛使用的无人机飞控系统之一。支持多旋翼、固定翼、垂直起降等多种机型,广泛应用于工业无人机和科研领域。 核心能力:飞行控制、任务规划、传感器融合、MAVLink通信协议、硬件抽象层、模块化架构 1.2 ArduPilot 项目地址:github.com/ArduPilot/ardupilot 开源协议:GPLv3 项目简介:历史最悠久的开源自动驾驶仪项目,社区活跃度极高。