【提示词创作第四十八节】如何控制 AI 角色的语气、语速和音色？

画面都真实了，为什么一开口就假？

#58 尊贵会员全文 50 浏览

内容预览

2 返回列表

导语：画面都真实了，为什么一开口就假？

很多人在做 AI 视频时，画面已经越来越真实，人物的表情、服装、环境、光影都很像真实拍摄。但问题往往出现在人物开口之后。

画面一开口，真实感就掉了。

不是嘴型不对，就是语气很平；不是音色没有区分，就是每个角色听起来都像同一个人在说话。明明画面里是少年将军、年迈谋士、冷静女主、暴躁反派，但一开口，声音却没有年龄、性格和情绪差异。

这节教程要解决的，就是 AI 角色声音控制的问题。

很多人以为，控制声音就是写一句“愤怒地说”“悲伤地讲”“激动地喊”。但这种写法对 AI 的约束非常弱，因为它只描述了情绪结果，没有描述声音过程。AI 更容易理解的是结构、节奏、停顿、发声方式和说话习惯。

所以我们要学会把“情绪词”改成“声音结构”，让 AI 知道这个角色到底该怎么说话。

一、为什么画面真实，人物一开口却很假？

AI 生成视频时，画面和声音其实是两套不同的控制逻辑。

画面可以通过“场景、光线、镜头、人物动作、服装材质、景深、构图”等信息来控制，所以只要提示词写得足够清楚，画面通常能接近真实拍摄。

但声音不一样。

声音不是简单的“高兴”“愤怒”“悲伤”。一个真实的人说话时，会同时包含很多信息：年龄感、声线质感、语速、停顿、气息、情绪底色、发声习惯、重音位置，甚至还有说话时的心理状态。

比如同样一句话：“你终于来了。”

一个少年将军说，可能是压着怒气，语速偏快，尾音短促。

一个年迈谋士说，可能是声音低沉，语速缓慢，字与字之间有停顿。

一个冷静女主说，可能是气息稳定，音量不高，但每个字都很清楚。

所以我们不能只告诉 AI：“这个人很生气。”

我们要告诉 AI：“这个人是怎么把生气说出来的。”

这就是控制 AI 声音的核心。

二、控制音色：不要只写角色身份，要写声音特征

很多人在写角色提示词时，会这样写：

“一个少年将军说话。”

“一个冷艳公主开口。”

“一个反派军师冷笑着说。”

这类写法只告诉 AI 角色是谁，却没有告诉 AI 角色的声音是什么样的。AI 可能会根据“将军”“公主”“反派”这些词做一些大致判断，但结果很不稳定。

更好的写法，是使用一个声音公式：

年龄感 + 声线质感 + 语速 + 情绪底色 + 发声习惯

这个

本课程未解锁，升级尊贵会员后，可查看完整课程正文、完整提示词拆解和后续章节。

升级尊贵会员注册账号登录已有账号