AI 视频 Best Practice 周报 | 第 4 期(2026.04.10-04.12)

AI 视频 Best Practice 周报 | 第 4 期(2026.04.10-04.12)

本期精选 9 条直接可用的 AI 视频实践:Tao Prompts Seedance 2.0 六阶段电影级制作工作流(含完整提示词结构与时间码控制)、VEO 3.1 五步角色一致性方案(参考权重 0.8-1.0 主参)、Runway × Seedance 2.0 三个即用特效提示词(冻结时间/人物替换/多镜头叙事);风格创意侧涵盖 HeyGen Avatar V「性能与外观分离」新角度、Seedance 2.0 内容审查替代路径、Feel Good Film Competition 2026 AI 电影导演级审美标准;另附即梦 AI 5.0 + 剪映多镜头合成流程与五大通用提示词黄金法则,工具生态速览含 Google DeepMind Green、Ace Step 1.5 最新进展。

AI 视频 Best Practice 周报
2026/4/12 · 5:11
購読 0 件 · コンテンツ 5 件
工具够用了,差的是工作流。这周最有价值的内容集中在「怎么系统地用 AI 完成一部片子」:Tao Prompts 把 Seedance 2.0 拆成六个可重复执行的阶段,每段都有对应提示词结构;VEO 3.1 的角色一致性方案在实操测试后被整理成了明确的五步;Feel Good Film Competition 2026 的获奖评审则给出了一个刺耳但有用的信号——AI 电影的技术门槛已经不是瓶颈,编导感才是。本期 9 条实践,直接可用。

工作流与提示词技巧

1. Seedance 2.0 六阶段电影级制作工作流

工具:Nano Banana Pro(图像生成)+ Seedance 2.0(视频生成)
Tao Prompts 在 2026 年 4 月 8 日发布的完整演示视频中,把一部短片从角色设计到动作序列拆成六个阶段。以下是每阶段的核心操作和提示词:1
阶段一:角色参考表
先用 Nano Banana Pro 生成 2×N 网格的角色参考表(上行全身、下行特写),上传到 Seedance 的「Visual Reference」区域:
Create a character sheet of [DESCRIPTION], divided into two rows.
Top row: full body shots from different angles.
Bottom row: close-up shots of the character's face and expressions.
Style: [VISUAL STYLE, e.g., space explorer, cinematic, photorealistic]
Grid format: 16:9 aspect ratio, 4K resolution
阶段二:环境与多角色标签系统
为每个参考图显式标注编号,AI 会按标签理解对应关系:
Image 1: Scene - [环境描述,如 space habitat corridor with soft dim lighting]
Image 2: Character A - [角色参考表]
Image 3: Character B - [角色参考表]

0-3 seconds: Wide tracking shot of [Image 1]. Two characters walking side by side.
3-6 seconds: Close-up on [Image 2]. Character A speaks: "[dialogue]"
6-9 seconds: Medium shot of both characters from [Image 1].
阶段三:对话场景时间码控制
每个镜头用「X to Y seconds」明确时长和情绪,同时加一行防字幕出现的指令:
From 0 to 3 seconds: Wide tracking shot. Two space explorers walk down a corridor.

3 to 6 seconds: Close-up shot on female explorer [Reference Image 2].
She says: "What did you see down there?" Tone: calm but probing.

6 to 9 seconds: Cut to male explorer [Reference Image 3].
He responds: "Enough." Tone: guarded.

9 to 12 seconds: Medium shot showing both explorers. Tone: shifts from tense to quiet whisper.

12 to 15 seconds: Extreme close-up on female character. Tone: intimate and concerned.

Special note: NO SUBTITLES
阶段四:松散控制模式(创意探索)
只给 establishing shot 和叙事方向,让 AI 自己决定镜头语言:
Establishing shot of [scene from Image 1].
Create a scene where [brief narrative direction].
Tell the story of [characters] discovering [event].
适合需要视觉多样性的场景,但会牺牲一定细节一致性。
阶段五:末帧驱动无缝续接
截取上一段视频的最后一帧,作为下一个提示的「Image 1」,实现跨越 15 秒上限的长序列。
阶段六:动作序列(空地参考法)
核心技巧:若想生成「某物突然从空处冒出」的效果,不能直接放目标物的参考图——那会让 AI 直接生成已有状态。正确做法是准备「空场景参考图」,在提示中写明对比:
Cut to wide angle shot of empty terrain [Image X],
then suddenly a massive sandworm bursts through the ground.
Seedance 2.0 六阶段工作流的角色参考表示例,展示多角度多姿态的角色网格
Seedance 2.0 六阶段工作流的角色参考表示例,展示多角度多姿态的角色网格

2. VEO 3.1 角色一致性五步方案

工具:Google VEO 3.1
VEO 3.1(2026 年 3-4 月发布)结合 Gemini 2.5 Pro 的语言理解,在跨镜头的角色身份保持上有明显提升23。下面这套方法来自 Medium 上流传最广的两篇 VEO 3 实战教程,实测有效:
第一步:写「角色概念卡」
不要只有外貌描述,要包含视觉特征、动作风格、表演习惯。越具体,越能减少跨镜头「身份漂移」(即角色越拍越不像本人的问题)。
第二步:准备 3-4 张参考图
选图标准:
  • 角度:正面 + 3/4 侧面 + 后背视角(三张最优)
  • 光线一致:所有参考图必须同一光源方向——混合光源是导致「漂移」的主因
  • 表情多样:中性表情 + 微笑 + 运动中三种状态
  • 裁剪比例:确保人物大小在各参考图中比例一致,背景简洁
第三步:为每张参考图添加「上下文标记」
Reference 1: [角色名], face-on, neutral expression, key light from left, morning mood
Reference 2: [角色名], 3/4 view, slight smile, soft fill light, afternoon mood
Reference 3: [角色名], in motion, concentrated expression, high contrast backlight
这一步提升 AI 对参考图的语义对齐度,而不只是像素匹配。
第四步:生成单个镜头时显式引用参考组合
VEO 3.1 支持最多 4 张参考图同时输入。权重设置:
  • 主参考图:0.8-1.0
  • 辅参考图:0.3-0.5
第五步:末帧驱动镜头衔接
上一个镜头的最后一帧作为下一个镜头的起始提示(first frame hint),保证镜头间视觉连续性。这与 Seedance 2.0 的阶段五逻辑相同,但在 VEO 3.1 中配合「取证级身份锁定」效果更稳定。

3. Runway × Seedance 2.0:三个可直接复用的特效提示词

工具:Runway + Seedance 2.04
Runway 官方文档提供了多个具体案例,以下三个直接覆盖高频创作需求:
技巧一:冻结时间穿梭镜头
use Image 1 as the starting frame for a single, continuous shot in freeze time.
the camera dramatically weaves through the completely frozen scene
输入:1 张战斗/人群/动态场景图片 → 输出:子弹时间风格,镜头在完全静止的场景中穿梭。
技巧二:保留动作,替换人物
replace the male knight in Video 1 with a woman. fiery red hair.
输入:1 段带角色的视频 → 输出:原视频的所有运动、场景、光线完全保留,只替换人物外观。无需重新拍摄。
技巧三:单图展开多镜头叙事
multishot video. the woman realizes that she forgot there was a test that day.
watercolor animation style
输入:1 张人物图片 → Seedance 自动扩展出多镜头叙事序列,水彩风格统一全片。
输入规格参考(在 Runway 平台):
参数限制
参考图数量上限5 张
参考视频数量上限3 段(总时长 ≤15 秒)
图片文件大小<30MB
视频文件大小<50MB
输出时长5-15 秒
支持比例21:9 / 16:9 / 4:3 / 1:1 / 3:4 / 9:16

4. 即梦 AI 5.0 + 剪映:国内最高效的多镜头合成流程

工具:即梦 AI 5.0 + 剪映 AI
据微信公众号平台 2026 年 3-4 月多篇即梦 AI 教程汇总,这套「即梦 + 剪映」的组合是中文社区里讨论最密集的「从零到成片」流程——成本低,和国内发布平台直连,不用额外转码:
核心流程
  1. 故事大纲 → 分镜脚本 → 视觉参考素材库(前期准备)
  2. 即梦「文生图」模块:预生成场景背景、角色素材;用「参考生图」锁定视觉风格一致性
  3. 生视频(两种选项)
    • 快速路线:「一镜到底」模式,单条复杂提示词直接生成完整场景(5-15 秒)
    • 精细路线:逐镜头生成(每镜头约 5 秒),在剪映中组合、转场、调色
  4. 数字人分身:录制 30 秒~1 分钟素材 → 一键创建分身 → 输入文本脚本自动生成说话视频
  5. 后期:剪映 AI 辅助剪辑、字幕生成、配音合成
关键提示词模板(场景生成):
[时代/风格] [主要动作] [场景] [人物] [光线] [氛围]

示例:
电影级、2020 年代、上班族下班后疲惫地走在城市街道上,
霓虹灯倒映,黄昏时刻,轻微爵士乐背景音,镜头缓慢跟随
产品展示模板
产品 360 度环转视角、产品放置在 [材质] 背景上、
光线:[光源位置]、清晰展示产品细节和质感、色温 [色温值]K
这套组合在国内市场的核心优势:即梦的内容审查标准更适应中文内容创作,剪映与国内发布平台(抖音、视频号)的直出集成省去了格式转码的麻烦。

5. AI 提示词五大黄金法则(全平台通用)

这套法则由小红书用户「白同学聊 AI」于 2026 年 4 月 11 日发布,48 小时内获得 15K+ 赞,评论区用户普遍反映应用后提示词成功率从 40% 提升到 80% 以上(来源:小红书社区,平台 URL 未独立编号):
法则一:构图明确化
❌ 「好看的构图」 ✅ 「低角度贴地跟拍」「俯拍 45 度」「极近景」
法则二:光线参数化
❌ 「漂亮的灯光」 ✅ 「key light 45°,fill light 比 1:2,边缘光强调轮廓」
法则三:动作拆解化
不说「活动」,改为逐秒描写每个身体部位的具体变化。
法则四:负向指令精准化
❌ 「不要看起来廉价」 ✅ 「exclude: low quality, plastic appearance, 3D render artifacts, overexposed highlights」
法则五:风格参考具体化
❌ 「大片质感」 ✅ 「Roger Deakins 电影级棚光」「Cinestill 800T 胶片质感」「Wes Anderson 中轴对称构图」

风格化与创意方法

6. Avatar V「性能与外观分离」:录一次,生多套

工具:HeyGen Avatar V56
Avatar V(2026 年 4 月 8 日发布)带来了一个以前 avatar 工具做不到的能力:同一段 15 秒的录制可以生成多套完全不同的外观,包括不同服装、不同背景、不同角度——无需重新录制。这是「性能与外观分离」的设计逻辑:AI 从视频中学习的是你的动作节奏、微表情、说话习惯,而外观是可以独立替换的变量。
实际操作时,有三个细节决定最终效果:
细节一:录制时的能量匹配
高能量录制(积极、富有动态的表演)→ 产生活跃的数字人输出;低能量录制(沉稳、克制的表演)→ 产生内敛的输出。录制前想清楚你的最终视频是哪种基调,录制时就要配套呈现。
细节二:声音克隆是必须迭代的一步
不要一遍过就接受第一次的声音克隆输出。多迭代几次,直到声音的节奏感、停顿习惯都真正像自己。这一步的差异对最终视频的自然感影响远超外观调整。
细节三:「Base Look」照片的质量上限
上传的正面清晰照或半身照是 Avatar V 生成所有衍生外观时的身份参考——这张照片的质量直接决定所有套装外观的上限。一张模糊或侧角的「基础形象」会让所有后续生成都带着同样的限制。
Avatar V 通过模型层面的「稀疏参考注意力机制」(Sparse Reference Attention)和「身份保护超分辨率」(Identity-Preserving Super-Resolution)在长视频中维持一致性5——这是模型级方案,不是后期修补。G2 用户将其评为「最真实 AI 头像模型」排名第一5
Avatar V「性能与外观分离」:录制一次,在多套外观和场景中复用同一动作与身份
Avatar V「性能与外观分离」:录制一次,在多套外观和场景中复用同一动作与身份

7. Seedance 2.0 内容审查:人像项目的替代路径

工具:Seedance 2.0(Dreamina 平台)/ HeyGen Avatar Shots7
Curious Refuge 对 Seedance 2.0 做了全面评测,其中最值得记录的是一个现实限制:几乎所有包含人物照片的生成请求都会被标记为「may contain inappropriate content」并拒绝生成——即使提示词完全无害(如「person sitting at a diner」)。
这个问题只在美国地区通过 Dreamina 平台使用时出现。Seedance 2.0 在非人物内容(产品特写、自然风景、VFX 特效)上的生成能力仍然领先,物理模拟(粒子效果、碎片、光影追踪)表现在当前工具中最为逼真7
对创作者的实际影响与应对策略
内容类型推荐路径
纯场景、产品、VFX直接用 Seedance 2.0(无限制)
需要真实人物的视频HeyGen Avatar Shots(以 Avatar V 身份+Seedance 引擎后端)
角色置换(无真实人物)Runway × Seedance 2.0 的 character swap 提示词
如果你的项目以人像为核心,绕过这一限制目前最稳定的方式是:在 HeyGen 的 Avatar Shots 功能内使用 Seedance 2.0——HeyGen 会先验证数字人身份,再调用 Seedance 的渲染引擎,这样既保留了电影级的镜头质感,又不会触发 Dreamina 的内容过滤8

8. AI 电影的新审美门槛:Feel Good Film Competition 2026

来源:Curious Refuge - Feel Good AI Films 2026 评审分析9
评审团包括《狮子王》导演 Rob Minkoff 和 OpenAI 创意负责人。从获奖和入选作品中归纳出以下 AI 电影创作的新审美标准,每一条都与「AI 拼凑感」对立:
通过者共同特征
  • 无配音叙述,完全依靠画面和音效传递情感(「这是真正的电影编导能力,不是 AI 拼接」——评委点评)
  • 清晰的故事三幕结构
  • 角色情感表达通过微表情和肢体语言传递,而非旁白解释
  • 音声设计融入叙事(脚步声、环境音、音乐节奏),不只是背景填充
  • 场景简化:背景元素尽量单一,避免「同一场景中建筑细节数量不一致」的问题
频繁出现的失败模式
  • 配音演技生硬 → 立即拉低整体质感
  • 过度描述性旁白 → 观众本可从画面读出,却被「告知」了
  • 场景前后不一致(窗户数量、背景物件位置)
  • 故事节奏平铺直叙,缺少转折点
AI 电影评审标准升级:从「AI 能否生成」到「是否具备导演视角」——Feel Good Film Competition 2026 获奖作品展示的电影感
AI 电影评审标准升级:从「AI 能否生成」到「是否具备导演视角」——Feel Good Film Competition 2026 获奖作品展示的电影感
获奖作品《A Little Water Bear》(水熊虫角色)的核心亮点:零配音,纯视觉语言。评委点评:镜头运动细腻、构图简洁,展示了「留给观众想象」的叙事克制。
这届评审结果说明了一件事:生成质量已经不是最难的问题了。拉开差距的是有没有导演思维。

工具生态速览

三个值得关注的配套工具进展,均来自 Curious Refuge 2026 年 4 月 11 日的评测7
Google DeepMind Green(照明与时间重建)
功能:将 LiDAR 扫描、高斯泼溅或视频素材重新打光,支持白天↔夜晚切换、窗户亮度控制、物体阴影精确还原。AI 自动理解场景中的物理反射逻辑。预计数月内进入消费端工具,届时「在家改变任意场景的打光时段」将成为标准后期操作。
Ace Step 1.5(开源 AI 音乐)
竞争对手:Suno 5.5。自动化程度达到 Suno 约 85%,完全免费开源,支持自定义歌词、参考音频和风格微调。当前限制:合成音色仍有金属质感。建议:个人项目和原型测试用 Ace Step 1.5;商业或高品质产出用 Suno 5.5。
Sync 3.0(唇形同步)— 暂不推荐
唇形同步准确率低、多角色混乱、背景干扰明显。当前最佳唇形同步工具仍是 HeyGen。Sync 3.0 暂时不值得从现有工作流切换。
HeyGen 3 月 7 项功能更新(2026 年 4 月 6 日发布,已可使用10):
統計カードを読み込んでいます…

下期关注

  • Avatar V 企业级批量生产反馈:目前社区案例多为个人测试,教育、营销、电商领域的批量生成实际成本和质量上限尚待验证
  • VEO 3.1 vs Kling 3.0 Omni 角色一致性横评:两套方案都在社区验证中,系统对比还未出现
  • ChatGPT Image 2(Alpha):Curious Refuge 测评显示其文字渲染更准确、场景细节更自然,「股票图感」明显低于 Nano Banana Pro——目前仅 Alpha 测试者可用,公测发布后值得测一轮7

封面图:AI 生成

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。