📋 完整步骤

让 ChatGPT 按"3 秒钩子 + 3 个论点 + 1 个 CTA"的结构生成 60 秒口播脚本，并把每句话拆成一个分镜（含画面描述、镜头语言、停留秒数）。

使用工具： ChatGPT

💡 把"目标人群 + 平台（抖音/小红书/B 站）"写进系统提示，脚本节奏会显著贴合该平台。

把每个分镜的画面描述翻译成英文 prompt，交给 DALL-E 3 出图。保持人物、色调、构图三个维度的一致性。

使用工具： DALL-E 3

💡 在 prompt 末尾加上 "consistent character, same outfit, same lighting" 帮助跨镜头保持一致。

把每张静帧上传到 Runway 的 Image-to-Video，生成 4-6 秒动态片段。复杂运镜可以多生成几次挑最稳的一版。

使用工具： Runway

💡 Runway 的相机控制比文字描述更可靠 —— 平移/拉远/环绕用 UI 而不是 prompt。

用 Suno AI 按"风格 + 时长 + 情绪"生成两版背景乐，挑一版接下来在 Descript 里压低做底。

使用工具： Suno AI

💡 60 秒视频建议生成 90 秒的乐曲，留出片头/片尾淡入淡出空间。

在 Descript 里把视频片段串起来，让它自动生成字幕；不满意的口播段直接在文本上删字、AI 自动补帧。

使用工具： Descript

💡 Descript 的 "Studio Sound" 一键去除环境噪音，省去单独跑降噪插件。

短视频脚本到成片端到端工作流

短视频是当前 AI 工具收益最高的领域之一——传统流程里每个环节都有专业门槛（脚本、美术、镜头、配乐、剪辑），而每一环节都有 SOTA 级 AI 工具可以直接顶上。

工作流的关键点

脚本与分镜分两次生成——先确定整体节奏，再细化每个画面，避免一次性输出导致镜头雷同。
DALL-E 3 vs Midjourney 的选择：DALL-E 3 对 prompt 理解更”听话”，Midjourney 风格更艺术；短视频追求”画面服务剧情”建议优先 DALL-E 3。
Runway 单段不超过 6 秒：超出后画面容易崩，分多段生成再剪接更稳。
Descript 直接吃多模态时间轴：图片+视频+音频可以放在同一条 timeline 里，不需要再开 Premiere。