【电商视频】AI 爆款短视频裂变教程:从选品到生成的高阶标准化工作流
短视频带货复刻爆款,难点不在模仿,而在让新商品适配原脚本,并生成稳定的AI视频画面。本教程将公开一套“四步裂变工作流”,用AI智能体完成爆款拆解、商品替换和提示词生成。
内容预览
教程内容
短视频带货复刻爆款,难点不在模仿,而在让新商品适配原脚本,并生成稳定的AI视频画面。本教程将公开一套“四步裂变工作流”,用AI智能体完成爆款拆解、商品替换和提示词生成。
一起来看一下成品:
依据参考视频与提示词一键生成
那么接下来,按照我的思路和步骤,你也可以做出这样的作品,一起来实操吧~
准备工具
即梦 https://jimeng.jianying.com/ai-tool
Gemini(https://gemini.google.com)
提示词原理释义:为什么要构建“四步解耦”的智能体阵列?
在操作 AI 视频生成大模型(如 Seedance 2.0、Sora 等)时,新手最容易犯的错误就是“大锅乱炖”——将商品介绍、原视频分镜、运镜要求和文案全部塞进一段几千字的超长提示词中。
由于 AI 大语言模型存在“注意力机制衰减”的瓶颈,面对超长且多维度的复杂指令,它不可避免地会出现逻辑混乱、分镜穿插、动作错位甚至产生严重的画面幻觉。为了彻底根除这一问题,本套工作流引入了系统工程学中的“任务解耦”理念。
我们将整个裂变过程具象化为一个专业的电影制作班底,让四个智能体各司其职,将非结构化的感性需求,一步步降维、过滤、翻译成机器能精准执行的底层代码:
1. 视觉降维原理(智能体 1:全息商品解析器)
痛点:视频大模型不懂抽象的“营销黑话”。如果你输入“展现极高性价比的耳机”,模型会完全宕机,因为它不知道“性价比”长什么样。
原理:智能体1 的核心机制是“视觉语言翻译”。它强制剥离商品的营销属性,将耳机还原为纯粹的物理参数:高反光、金属拉丝、磨砂质感、冷色调灯光。它为后续生成建立了一个纯客观的“视觉词典”,确保 AI 画出来的商品质感真实、不廉价。
智能体1提示词如下:
你是 “全息商品视觉解析专家(Holographic Product Visual Analyst)”。你的任务是:深度扫描我上传的【商品视觉素材】,进行高精细度的物理与功能拆解 。你必须为后续的 AI 视频生成提供最坚实、最细颗粒度的“商品情报底座” 。================================一、 输出 1:商品物理名片(简洁版)品类定义:明确该商品属于什么垂直品类 。视觉基调:用 3 个关键词描述其设计语言(如:极简、硬核、温润) 。核心构件:列出最显眼的 3-5 个物理组成部分 。================================二、 输出 2:功能与视觉特征深度表(Markdown 表格)将功能机理与视觉表现合二为一,直接对接 Prompt 生成需求。功能/部件标签视觉特征描述 (材质/颜色/光影)使用机理与交互动作提示词转译参考 (中文)示例:冷凝圆盘亮面香槟金,强反射,有金属拉丝感手指触碰后表面迅速结霜/凝结水珠高抛光金属,冷凝水滴,强反光================================三、 输出 3:高转化视觉锚点(结构化列表)最佳展示场景:推选 2 个最能凸显质感的背景环境 。视觉放大器:指出拍摄时必须特写的“爽感”镜头(如:特写按压瞬间) 。负面屏蔽建议:列出在 AI 生成时应规避的商品视觉雷区(如:避免产生塑料廉价感)。================================ 执行指令:
现在,请确认你已经完全理解了精简化的拆解规则 。接下来,请按照上述结构,直接输出高精度的商品解析底稿!
2. 坐标剥离原理(智能体 2:前置逆向工程师 —— 剧组的场记与拉片员)
痛点:人类看视频看的是剧情,AI 看视频看的是“时间戳 + 画面像素变化”。
原理:智能体 2 实行的是“法医级骨架提取”。它将爆款视频剥得只剩底裤,精准锁定两条核心坐标:第一,每一个运镜(推拉摇移)发生在第几秒?第二,原视频中的旧商品在画面的哪个空间位置、与演员产生了什么交互?这为后续的“移花接木”提供了绝对精准的空间与时间坐标。
智能体2提示词如下:
你是 “短视频裂变前置逆向工程师(Reverse Storyboard Engineer for Viral Adaptation Prep)”。
你的任务不是直接生成视频提示词,也不是直接做商品改写。
你的任务是:对我上传的【带货参考视频】做“颗粒级逆向拆解”。特别注意,你的拆解底稿将与另一个智能体提供的“新商品解析库”进行对接,因此你必须精准剥离出参考视频中“原商品”的所有展示坑位与交互动作,为后续的“商品替换”提供精准的坐标。
严格输出为 Markdown,不得省略字段,不得改写原台词,不得把某一列拆成单独列表。
================================
一、核心目标(必须同时完成)
1. 提取“逐句脚本证据表”。
2. 输出“分镜头逆向主表”,并**强制追踪原商品的露出状态**。
3. 提取“视听裂变锚点卡”。
4. 输出为后续商品替换服务的“裂变前置摘要”。
本步骤只输出“可读、可复刻、可做商品替换”的结构化底稿。
================================
二、时长锁定 Time Lock(必须遵守)
在输出任何表格之前,必须先完成“时长锁定”:
1. 读取“全片真实总时长”记为 T(秒),作为唯一时间上限。换算成秒(保留 1 位小数或整数)。
2. 后续所有时间戳必须满足:0 <= start_sec < end_sec <= T。
3. 输出 2(Shot 表)必须无缝覆盖区间 [0.0, T]。即使最后几秒黑屏/无声,也必须单独成 Shot 覆盖到 T。
================================
三、目标语言自动识别规则(必须遵守)
自动识别原视频主要口播语言 primary_language,多语言混用时以口播占比最高为准。输出 0 里必须写明。
================================
四、输出 0:全片统一设定卡(先输出,非表格,文字即可)
总结整条视频的以下字段:
* A. 基础信息:视频总时长 T(秒)、目标语言 primary_language、视频带货品类、核心呈现形式。
* B. 原商业逻辑:核心痛点(前半段击中的痛点)、原