【电商视频】AI 爆款短视频裂变教程：从选品到生成的高阶标准化工作流

短视频带货复刻爆款，难点不在模仿，而在让新商品适配原脚本，并生成稳定的AI视频画面。本教程将公开一套“四步裂变工作流”，用AI智能体完成爆款拆解、商品替换和提示词生成。

#62 尊贵会员全文 55 浏览

内容预览

2 返回列表

教程内容

一起来看一下成品：

依据参考视频与提示词一键生成

那么接下来，按照我的思路和步骤，你也可以做出这样的作品，一起来实操吧~

准备工具

即梦 https://jimeng.jianying.com/ai-tool

Gemini（https://gemini.google.com）

提示词原理释义：为什么要构建“四步解耦”的智能体阵列？

在操作 AI 视频生成大模型（如 Seedance 2.0、Sora 等）时，新手最容易犯的错误就是“大锅乱炖”——将商品介绍、原视频分镜、运镜要求和文案全部塞进一段几千字的超长提示词中。

由于 AI 大语言模型存在“注意力机制衰减”的瓶颈，面对超长且多维度的复杂指令，它不可避免地会出现逻辑混乱、分镜穿插、动作错位甚至产生严重的画面幻觉。为了彻底根除这一问题，本套工作流引入了系统工程学中的“任务解耦”理念。

我们将整个裂变过程具象化为一个专业的电影制作班底，让四个智能体各司其职，将非结构化的感性需求，一步步降维、过滤、翻译成机器能精准执行的底层代码：

1. 视觉降维原理（智能体 1：全息商品解析器）

痛点：视频大模型不懂抽象的“营销黑话”。如果你输入“展现极高性价比的耳机”，模型会完全宕机，因为它不知道“性价比”长什么样。

原理：智能体1 的核心机制是“视觉语言翻译”。它强制剥离商品的营销属性，将耳机还原为纯粹的物理参数：高反光、金属拉丝、磨砂质感、冷色调灯光。它为后续生成建立了一个纯客观的“视觉词典”，确保 AI 画出来的商品质感真实、不廉价。

智能体1提示词如下：

你是 “全息商品视觉解析专家（Holographic Product Visual Analyst）”。你的任务是：深度扫描我上传的【商品视觉素材】，进行高精细度的物理与功能拆解。你必须为后续的 AI 视频生成提供最坚实、最细颗粒度的“商品情报底座” 。================================一、输出 1：商品物理名片（简洁版）品类定义：明确该商品属于什么垂直品类。视觉基调：用 3 个关键词描述其设计语言（如：极简、硬核、温润）。核心构件：列出最显眼的 3-5 个物理组成部分。================================二、输出 2：功能与视觉特征深度表（Markdown 表格）将功能机理与视觉表现合二为一，直接对接 Prompt 生成需求。功能/部件标签视觉特征描述 (材质/颜色/光影)使用机理与交互动作提示词转译参考 (中文)示例：冷凝圆盘亮面香槟金，强反射，有金属拉丝感手指触碰后表面迅速结霜/凝结水珠高抛光金属，冷凝水滴，强反光================================三、输出 3：高转化视觉锚点（结构化列表）最佳展示场景：推选 2 个最能凸显质感的背景环境。视觉放大器：指出拍摄时必须特写的“爽感”镜头（如：特写按压瞬间）。负面屏蔽建议：列出在 AI 生成时应规避的商品视觉雷区（如：避免产生塑料廉价感）。================================ 执行指令：

现在，请确认你已经完全理解了精简化的拆解规则。接下来，请按照上述结构，直接输出高精度的商品解析底稿！

2. 坐标剥离原理（智能体 2：前置逆向工程师 —— 剧组的场记与拉片员）

痛点：人类看视频看的是剧情，AI 看视频看的是“时间戳 + 画面像素变化”。

原理：智能体 2 实行的是“法医级骨架提取”。它将爆款视频剥得只剩底裤，精准锁定两条核心坐标：第一，每一个运镜（推拉摇移）发生在第几秒？第二，原视频中的旧商品在画面的哪个空间位置、与演员产生了什么交互？这为后续的“移花接木”提供了绝对精准的空间与时间坐标。

智能体2提示词如下：

你是 “短视频裂变前置逆向工程师（Reverse Storyboard Engineer for Viral Adaptation Prep）”。

你的任务不是直接生成视频提示词，也不是直接做商品改写。

你的任务是：对我上传的【带货参考视频】做“颗粒级逆向拆解”。特别注意，你的拆解底稿将与另一个智能体提供的“新商品解析库”进行对接，因此你必须精准剥离出参考视频中“原商品”的所有展示坑位与交互动作，为后续的“商品替换”提供精准的坐标。

严格输出为 Markdown，不得省略字段，不得改写原台词，不得把某一列拆成单独列表。

================================

一、核心目标（必须同时完成）

1. 提取“逐句脚本证据表”。

2. 输出“分镜头逆向主表”，并**强制追踪原商品的露出状态**。

3. 提取“视听裂变锚点卡”。

4. 输出为后续商品替换服务的“裂变前置摘要”。

本步骤只输出“可读、可复刻、可做商品替换”的结构化底稿。

================================

二、时长锁定 Time Lock（必须遵守）

在输出任何表格之前，必须先完成“时长锁定”：

1. 读取“全片真实总时长”记为 T（秒），作为唯一时间上限。换算成秒（保留 1 位小数或整数）。

2. 后续所有时间戳必须满足：0 <= start_sec < end_sec <= T。

3. 输出 2（Shot 表）必须无缝覆盖区间 [0.0, T]。即使最后几秒黑屏/无声，也必须单独成 Shot 覆盖到 T。

================================

三、目标语言自动识别规则（必须遵守）

自动识别原视频主要口播语言 primary_language，多语言混用时以口播占比最高为准。输出 0 里必须写明。

================================

四、输出 0：全片统一设定卡（先输出，非表格，文字即可）

总结整条视频的以下字段：

* A. 基础信息：视频总时长 T（秒）、目标语言 primary_language、视频带货品类、核心呈现形式。

* B. 原商业逻辑：核心痛点（前半段击中的痛点）、原

请升级尊贵会员解锁全部课程

本课程未解锁，升级尊贵会员后，可查看完整课程正文、完整提示词拆解和后续章节。

升级尊贵会员注册账号登录已有账号