【提示词创作第四十八节】如何控制 AI 角色的语气、语速和音色?
画面都真实了,为什么一开口就假?
内容预览
教程内容
导语:画面都真实了,为什么一开口就假?
很多人在做 AI 视频时,画面已经越来越真实,人物的表情、服装、环境、光影都很像真实拍摄。但问题往往出现在人物开口之后。
画面一开口,真实感就掉了。
不是嘴型不对,就是语气很平;不是音色没有区分,就是每个角色听起来都像同一个人在说话。明明画面里是少年将军、年迈谋士、冷静女主、暴躁反派,但一开口,声音却没有年龄、性格和情绪差异。
这节教程要解决的,就是 AI 角色声音控制的问题。
很多人以为,控制声音就是写一句“愤怒地说”“悲伤地讲”“激动地喊”。但这种写法对 AI 的约束非常弱,因为它只描述了情绪结果,没有描述声音过程。AI 更容易理解的是结构、节奏、停顿、发声方式和说话习惯。
所以我们要学会把“情绪词”改成“声音结构”,让 AI 知道这个角色到底该怎么说话。
一、为什么画面真实,人物一开口却很假?
AI 生成视频时,画面和声音其实是两套不同的控制逻辑。
画面可以通过“场景、光线、镜头、人物动作、服装材质、景深、构图”等信息来控制,所以只要提示词写得足够清楚,画面通常能接近真实拍摄。
但声音不一样。
声音不是简单的“高兴”“愤怒”“悲伤”。一个真实的人说话时,会同时包含很多信息:年龄感、声线质感、语速、停顿、气息、情绪底色、发声习惯、重音位置,甚至还有说话时的心理状态。
比如同样一句话:“你终于来了。”
一个少年将军说,可能是压着怒气,语速偏快,尾音短促。
一个年迈谋士说,可能是声音低沉,语速缓慢,字与字之间有停顿。
一个冷静女主说,可能是气息稳定,音量不高,但每个字都很清楚。
所以我们不能只告诉 AI:“这个人很生气。”
我们要告诉 AI:“这个人是怎么把生气说出来的。”
这就是控制 AI 声音的核心。
二、控制音色:不要只写角色身份,要写声音特征
很多人在写角色提示词时,会这样写:
“一个少年将军说话。”
“一个冷艳公主开口。”
“一个反派军师冷笑着说。”
这类写法只告诉 AI 角色是谁,却没有告诉 AI 角色的声音是什么样的。AI 可能会根据“将军”“公主”“反派”这些词做一些大致判断,但结果很不稳定。
更好的写法,是使用一个声音公式:
年龄感 + 声线质感 + 语速 + 情绪底色 + 发声习惯
这个