AI 视频 Best Practice 周报 | 第 4 期（2026.04.10-04.12）

工具够用了，差的是工作流。这周最有价值的内容集中在「怎么系统地用 AI 完成一部片子」：Tao Prompts 把 Seedance 2.0 拆成六个可重复执行的阶段，每段都有对应提示词结构；VEO 3.1 的角色一致性方案在实操测试后被整理成了明确的五步；Feel Good Film Competition 2026 的获奖评审则给出了一个刺耳但有用的信号——AI 电影的技术门槛已经不是瓶颈，编导感才是。本期 9 条实践，直接可用。

工作流与提示词技巧

1. Seedance 2.0 六阶段电影级制作工作流

工具：Nano Banana Pro（图像生成）+ Seedance 2.0（视频生成）

Tao Prompts 在 2026 年 4 月 8 日发布的完整演示视频中，把一部短片从角色设计到动作序列拆成六个阶段。以下是每阶段的核心操作和提示词：1

阶段一：角色参考表

先用 Nano Banana Pro 生成 2×N 网格的角色参考表（上行全身、下行特写），上传到 Seedance 的「Visual Reference」区域：

Create a character sheet of [DESCRIPTION], divided into two rows.
Top row: full body shots from different angles.
Bottom row: close-up shots of the character's face and expressions.
Style: [VISUAL STYLE, e.g., space explorer, cinematic, photorealistic]
Grid format: 16:9 aspect ratio, 4K resolution

阶段二：环境与多角色标签系统

为每个参考图显式标注编号，AI 会按标签理解对应关系：

Image 1: Scene - [环境描述，如 space habitat corridor with soft dim lighting]
Image 2: Character A - [角色参考表]
Image 3: Character B - [角色参考表]

0-3 seconds: Wide tracking shot of [Image 1]. Two characters walking side by side.
3-6 seconds: Close-up on [Image 2]. Character A speaks: "[dialogue]"
6-9 seconds: Medium shot of both characters from [Image 1].

阶段三：对话场景时间码控制

每个镜头用「X to Y seconds」明确时长和情绪，同时加一行防字幕出现的指令：

From 0 to 3 seconds: Wide tracking shot. Two space explorers walk down a corridor.

3 to 6 seconds: Close-up shot on female explorer [Reference Image 2].
She says: "What did you see down there?" Tone: calm but probing.

6 to 9 seconds: Cut to male explorer [Reference Image 3].
He responds: "Enough." Tone: guarded.

9 to 12 seconds: Medium shot showing both explorers. Tone: shifts from tense to quiet whisper.

12 to 15 seconds: Extreme close-up on female character. Tone: intimate and concerned.

Special note: NO SUBTITLES

阶段四：松散控制模式（创意探索）

只给 establishing shot 和叙事方向，让 AI 自己决定镜头语言：

Establishing shot of [scene from Image 1].
Create a scene where [brief narrative direction].
Tell the story of [characters] discovering [event].

适合需要视觉多样性的场景，但会牺牲一定细节一致性。

阶段五：末帧驱动无缝续接

截取上一段视频的最后一帧，作为下一个提示的「Image 1」，实现跨越 15 秒上限的长序列。

阶段六：动作序列（空地参考法）

核心技巧：若想生成「某物突然从空处冒出」的效果，不能直接放目标物的参考图——那会让 AI 直接生成已有状态。正确做法是准备「空场景参考图」，在提示中写明对比：

Cut to wide angle shot of empty terrain [Image X],
then suddenly a massive sandworm bursts through the ground.

Seedance 2.0 六阶段工作流的角色参考表示例，展示多角度多姿态的角色网格

2. VEO 3.1 角色一致性五步方案

工具：Google VEO 3.1

VEO 3.1（2026 年 3-4 月发布）结合 Gemini 2.5 Pro 的语言理解，在跨镜头的角色身份保持上有明显提升2 3。下面这套方法来自 Medium 上流传最广的两篇 VEO 3 实战教程，实测有效：

第一步：写「角色概念卡」

不要只有外貌描述，要包含视觉特征、动作风格、表演习惯。越具体，越能减少跨镜头「身份漂移」（即角色越拍越不像本人的问题）。

第二步：准备 3-4 张参考图

选图标准：

角度：正面 + 3/4 侧面 + 后背视角（三张最优）
光线一致：所有参考图必须同一光源方向——混合光源是导致「漂移」的主因
表情多样：中性表情 + 微笑 + 运动中三种状态
裁剪比例：确保人物大小在各参考图中比例一致，背景简洁

第三步：为每张参考图添加「上下文标记」

Reference 1: [角色名], face-on, neutral expression, key light from left, morning mood
Reference 2: [角色名], 3/4 view, slight smile, soft fill light, afternoon mood
Reference 3: [角色名], in motion, concentrated expression, high contrast backlight

这一步提升 AI 对参考图的语义对齐度，而不只是像素匹配。

第四步：生成单个镜头时显式引用参考组合

VEO 3.1 支持最多 4 张参考图同时输入。权重设置：

主参考图：0.8-1.0
辅参考图：0.3-0.5

第五步：末帧驱动镜头衔接

上一个镜头的最后一帧作为下一个镜头的起始提示（first frame hint），保证镜头间视觉连续性。这与 Seedance 2.0 的阶段五逻辑相同，但在 VEO 3.1 中配合「取证级身份锁定」效果更稳定。

3. Runway × Seedance 2.0：三个可直接复用的特效提示词

工具：Runway + Seedance 2.04

Runway 官方文档提供了多个具体案例，以下三个直接覆盖高频创作需求：

技巧一：冻结时间穿梭镜头

use Image 1 as the starting frame for a single, continuous shot in freeze time.
the camera dramatically weaves through the completely frozen scene

输入：1 张战斗/人群/动态场景图片 → 输出：子弹时间风格，镜头在完全静止的场景中穿梭。

技巧二：保留动作，替换人物

replace the male knight in Video 1 with a woman. fiery red hair.

输入：1 段带角色的视频 → 输出：原视频的所有运动、场景、光线完全保留，只替换人物外观。无需重新拍摄。

技巧三：单图展开多镜头叙事

multishot video. the woman realizes that she forgot there was a test that day.
watercolor animation style

输入：1 张人物图片 → Seedance 自动扩展出多镜头叙事序列，水彩风格统一全片。

输入规格参考（在 Runway 平台）：

参数	限制
参考图数量上限	5 张
参考视频数量上限	3 段（总时长 ≤15 秒）
图片文件大小	<30MB
视频文件大小	<50MB
输出时长	5-15 秒
支持比例	21:9 / 16:9 / 4:3 / 1:1 / 3:4 / 9:16

4. 即梦 AI 5.0 + 剪映：国内最高效的多镜头合成流程

工具：即梦 AI 5.0 + 剪映 AI

据微信公众号平台 2026 年 3-4 月多篇即梦 AI 教程汇总，这套「即梦 + 剪映」的组合是中文社区里讨论最密集的「从零到成片」流程——成本低，和国内发布平台直连，不用额外转码：

核心流程：

故事大纲 → 分镜脚本 → 视觉参考素材库（前期准备）
即梦「文生图」模块：预生成场景背景、角色素材；用「参考生图」锁定视觉风格一致性
生视频（两种选项）：
- 快速路线：「一镜到底」模式，单条复杂提示词直接生成完整场景（5-15 秒）
- 精细路线：逐镜头生成（每镜头约 5 秒），在剪映中组合、转场、调色
数字人分身：录制 30 秒~1 分钟素材 → 一键创建分身 → 输入文本脚本自动生成说话视频
后期：剪映 AI 辅助剪辑、字幕生成、配音合成

关键提示词模板（场景生成）：

[时代/风格] [主要动作] [场景] [人物] [光线] [氛围]

示例：
电影级、2020 年代、上班族下班后疲惫地走在城市街道上，
霓虹灯倒映，黄昏时刻，轻微爵士乐背景音，镜头缓慢跟随

产品展示模板：

产品 360 度环转视角、产品放置在 [材质] 背景上、
光线：[光源位置]、清晰展示产品细节和质感、色温 [色温值]K

这套组合在国内市场的核心优势：即梦的内容审查标准更适应中文内容创作，剪映与国内发布平台（抖音、视频号）的直出集成省去了格式转码的麻烦。

5. AI 提示词五大黄金法则（全平台通用）

这套法则由小红书用户「白同学聊 AI」于 2026 年 4 月 11 日发布，48 小时内获得 15K+ 赞，评论区用户普遍反映应用后提示词成功率从 40% 提升到 80% 以上（来源：小红书社区，平台 URL 未独立编号）：

法则一：构图明确化

❌ 「好看的构图」 ✅ 「低角度贴地跟拍」「俯拍 45 度」「极近景」

法则二：光线参数化

❌ 「漂亮的灯光」 ✅ 「key light 45°，fill light 比 1:2，边缘光强调轮廓」

法则三：动作拆解化

不说「活动」，改为逐秒描写每个身体部位的具体变化。

法则四：负向指令精准化

❌ 「不要看起来廉价」 ✅ 「exclude: low quality, plastic appearance, 3D render artifacts, overexposed highlights」

法则五：风格参考具体化

❌ 「大片质感」 ✅ 「Roger Deakins 电影级棚光」「Cinestill 800T 胶片质感」「Wes Anderson 中轴对称构图」

风格化与创意方法

6. Avatar V「性能与外观分离」：录一次，生多套

工具：HeyGen Avatar V5 6

Avatar V（2026 年 4 月 8 日发布）带来了一个以前 avatar 工具做不到的能力：同一段 15 秒的录制可以生成多套完全不同的外观，包括不同服装、不同背景、不同角度——无需重新录制。这是「性能与外观分离」的设计逻辑：AI 从视频中学习的是你的动作节奏、微表情、说话习惯，而外观是可以独立替换的变量。

实际操作时，有三个细节决定最终效果：

细节一：录制时的能量匹配

高能量录制（积极、富有动态的表演）→ 产生活跃的数字人输出；低能量录制（沉稳、克制的表演）→ 产生内敛的输出。录制前想清楚你的最终视频是哪种基调，录制时就要配套呈现。

细节二：声音克隆是必须迭代的一步

不要一遍过就接受第一次的声音克隆输出。多迭代几次，直到声音的节奏感、停顿习惯都真正像自己。这一步的差异对最终视频的自然感影响远超外观调整。

细节三：「Base Look」照片的质量上限

上传的正面清晰照或半身照是 Avatar V 生成所有衍生外观时的身份参考——这张照片的质量直接决定所有套装外观的上限。一张模糊或侧角的「基础形象」会让所有后续生成都带着同样的限制。

Avatar V 通过模型层面的「稀疏参考注意力机制」（Sparse Reference Attention）和「身份保护超分辨率」（Identity-Preserving Super-Resolution）在长视频中维持一致性5——这是模型级方案，不是后期修补。G2 用户将其评为「最真实 AI 头像模型」排名第一5。

Avatar V「性能与外观分离」：录制一次，在多套外观和场景中复用同一动作与身份

7. Seedance 2.0 内容审查：人像项目的替代路径

工具：Seedance 2.0（Dreamina 平台）/ HeyGen Avatar Shots7

Curious Refuge 对 Seedance 2.0 做了全面评测，其中最值得记录的是一个现实限制：几乎所有包含人物照片的生成请求都会被标记为「may contain inappropriate content」并拒绝生成——即使提示词完全无害（如「person sitting at a diner」）。

这个问题只在美国地区通过 Dreamina 平台使用时出现。Seedance 2.0 在非人物内容（产品特写、自然风景、VFX 特效）上的生成能力仍然领先，物理模拟（粒子效果、碎片、光影追踪）表现在当前工具中最为逼真7。

对创作者的实际影响与应对策略：

内容类型	推荐路径
纯场景、产品、VFX	直接用 Seedance 2.0（无限制）
需要真实人物的视频	HeyGen Avatar Shots（以 Avatar V 身份+Seedance 引擎后端）
角色置换（无真实人物）	Runway × Seedance 2.0 的 character swap 提示词

如果你的项目以人像为核心，绕过这一限制目前最稳定的方式是：在 HeyGen 的 Avatar Shots 功能内使用 Seedance 2.0——HeyGen 会先验证数字人身份，再调用 Seedance 的渲染引擎，这样既保留了电影级的镜头质感，又不会触发 Dreamina 的内容过滤8。

8. AI 电影的新审美门槛：Feel Good Film Competition 2026

来源：Curious Refuge - Feel Good AI Films 2026 评审分析9

评审团包括《狮子王》导演 Rob Minkoff 和 OpenAI 创意负责人。从获奖和入选作品中归纳出以下 AI 电影创作的新审美标准，每一条都与「AI 拼凑感」对立：

通过者共同特征：

无配音叙述，完全依靠画面和音效传递情感（「这是真正的电影编导能力，不是 AI 拼接」——评委点评）
清晰的故事三幕结构
角色情感表达通过微表情和肢体语言传递，而非旁白解释
音声设计融入叙事（脚步声、环境音、音乐节奏），不只是背景填充
场景简化：背景元素尽量单一，避免「同一场景中建筑细节数量不一致」的问题

频繁出现的失败模式：

配音演技生硬 → 立即拉低整体质感
过度描述性旁白 → 观众本可从画面读出，却被「告知」了
场景前后不一致（窗户数量、背景物件位置）
故事节奏平铺直叙，缺少转折点

AI 电影评审标准升级：从「AI 能否生成」到「是否具备导演视角」——Feel Good Film Competition 2026 获奖作品展示的电影感

获奖作品《A Little Water Bear》（水熊虫角色）的核心亮点：零配音，纯视觉语言。评委点评：镜头运动细腻、构图简洁，展示了「留给观众想象」的叙事克制。

这届评审结果说明了一件事：生成质量已经不是最难的问题了。拉开差距的是有没有导演思维。

工具生态速览

三个值得关注的配套工具进展，均来自 Curious Refuge 2026 年 4 月 11 日的评测7：

Google DeepMind Green（照明与时间重建）

功能：将 LiDAR 扫描、高斯泼溅或视频素材重新打光，支持白天↔夜晚切换、窗户亮度控制、物体阴影精确还原。AI 自动理解场景中的物理反射逻辑。预计数月内进入消费端工具，届时「在家改变任意场景的打光时段」将成为标准后期操作。

Ace Step 1.5（开源 AI 音乐）

竞争对手：Suno 5.5。自动化程度达到 Suno 约 85%，完全免费开源，支持自定义歌词、参考音频和风格微调。当前限制：合成音色仍有金属质感。建议：个人项目和原型测试用 Ace Step 1.5；商业或高品质产出用 Suno 5.5。

Sync 3.0（唇形同步）— 暂不推荐

唇形同步准确率低、多角色混乱、背景干扰明显。当前最佳唇形同步工具仍是 HeyGen。Sync 3.0 暂时不值得从现有工作流切换。

HeyGen 3 月 7 项功能更新（2026 年 4 月 6 日发布，已可使用10）：

Brand Systems

输入企业官网 URL，自动抽取 Logo/字体/配色，全平台同步

Interactive Video

视频内嵌分支选项+CTA，可导出 SCORM 适配 LMS

Styles for Video Agent

100+ 视觉风格预设，同脚本不同风格完全不同感受

4K 视频增强

Topaz Starlight Precise 2.5 引擎，支持帧率插值 24fps→120fps

Pay-as-you-go API

$5+ 起充值，支持 fal / Replicate / Runware 平台集成

MCP 集成

Claude / Manus / OpenAI 可直接生成 HeyGen 视频

企业权限控制

Feature 级限制：自定义头像、品牌套件、公开头像库等分级管理

統計カードを読み込んでいます…

下期关注

Avatar V 企业级批量生产反馈：目前社区案例多为个人测试，教育、营销、电商领域的批量生成实际成本和质量上限尚待验证
VEO 3.1 vs Kling 3.0 Omni 角色一致性横评：两套方案都在社区验证中，系统对比还未出现
ChatGPT Image 2（Alpha）：Curious Refuge 测评显示其文字渲染更准确、场景细节更自然，「股票图感」明显低于 Nano Banana Pro——目前仅 Alpha 测试者可用，公测发布后值得测一轮7

封面图：AI 生成