虚拟聊天剪辑（自定义文本转语音虚拟形象制作）

用户投稿 1年前 (2025-06-23) 138浏览

本文提供有关准备用于创建自定义文本转语音虚拟形象的高质量视频示例的说明。

自定义文本转语音虚拟形象模型构建需要对真实人类说话的视频录制进行训练。此人是虚拟形象配音员。你必须根据所有相关法律和法规获得虚拟形象配音员的全面同意，才能根据其配音员的形象或肖像创建自定义虚拟形象。若要了解同意声明视频的要求，请参阅。

录制环境

我们建议在专业的视频录制室或者光线充足的地方录制。

背景要求

如果需要商业化、多场景的虚拟形象，视频背景应该是干净、流畅、纯色的，绿色屏幕是最佳选择。

如果你的虚拟形象只需要在单个场景中使用，则可以选择特定场景进行录制（例如在办公室），但不能去除或更改背景。

下面是在使用纯色背景（如绿色屏幕）进行录制时要考虑的最佳做法：

照明要求设备演员的外貌

自定义文本转语音虚拟形象不支持自定义服装或外貌。因此，在录制训练数据时，必须仔细设计和准备虚拟形象的外貌。请考虑以下提示：

类别正确做法禁止事项

发型

- 演员的头发表面应该顺滑、有光泽。

- 即使是演员的刘海或碎发，边缘也应该清晰顺滑。

- 选择容易在整个视频录制过程中保持一致的发型。

- 避免头发凌乱或透过头发露出背景。

- 不要让头发挡住眼睛或眉毛。

- 避免发型在面部产生阴影。

- 避免在说话和做身体动作时发型有过大变化。例如，演员的高马尾辫可能会在说话过程中出现、消失和摆动。

服装

- 讲话时注意衣着状况，确保衣着无明显变化。

- 避免穿着过于宽松、重或复杂的服装和配件，因为它们可能会影响说话和做身体动作时服装状态的一致性。

- 避免穿着与背景色或反光材料过于相似的服装，如白衬衫或半透明材料。

- 避免穿着带有明显线条的服装或带有你不想突出显示的徽标和品牌名称的服装。

- 避免反光元素，如金属带、亮面皮鞋和皮革裤子。

人脸

- 确保演员的面部清晰可见。

- 避免头发、太阳镜或配件遮挡面部。

要录制的视频剪辑

需要多种类型的基本视频剪辑：

同意视频（必需）：创建自定义虚拟形象需要同意视频。

状态 0 说话（手势所需）：“状态 0 说话”视频片段是使用虚拟形象做手势所必需的。

状态 0 说话的示例

描绘 Lisa 在状态 0 时说话的动画图形，表示说话时自然保持的姿势。

描绘 Harry 在状态 0 时说话的动画图形，表示说话时自然保持的姿势。

描绘 Lori 在状态 0 时说话的动画图形，表示说话时自然保持的姿势。

自然说话（必需）：“自然说话”视频剪辑是虚拟形象自然说话所必需的。

自然说话的示例

描绘 Lisa 在状态 0 时说话并保持自然手部姿势的动画图形，表示说话时自然保持的姿势。

描绘 Harry 在状态 0 时说话并保持自然手部姿势的动画图形，表示说话时自然保持的姿势。

描绘 Lori 在状态 0 时说话并保持自然手部姿势的动画图形，表示说话时自然保持的姿势。

静默状态（必需）：“静默状态”视频剪辑是必需的。如果要与自定义虚拟形象建立实时对话，此视频剪辑非常重要。该视频剪辑用作聊天机器人说话和倾听状态的主要模板。

静默状态的示例

描绘了 Lisa 保持沉默状态，不说话但仍感到放松的动画图形。

描绘了 Harry 保持沉默状态，不说话但仍感到放松的动画图形。

描绘了 Lori 保持沉默状态，不说话但仍感到放松的动画图形。

手势（可选）

手势视频剪辑是可选的，需要在虚拟形象说话时插入某些手势的客户可以按照此指南拍摄手势视频。仅对批量模式虚拟形象启用手势插入；实时虚拟形象目前不支持手势插入。每个自定义虚拟形象模型都可以支持不超过 10 个手势。

手势提示

手势示例

笔势示例

提供销售链接/促销代码

一个动画图形，描绘了交付销售链接的示例。

赞扬产品

一个动画图形，描绘了称赞产品的示例。

介绍产品

一个动画图形，描绘了介绍产品的示例。

显示价格（用手和拳头表示数字 1 到 10）

右手

一个动画图形，描绘了用右手展示价格的示例。

左手

一个动画图形，描绘了用左手展示价格的示例。

高质量的头像模型是通过高质量（包括音频质量）的视频录制构建的。以下是有关演员表演和录制视频剪辑的更多技巧：

正确做法错误做法

- 确保所有视频剪辑都是在相同条件下拍摄的。

- 在录制过程中虚拟聊天剪辑，设计所需角色的大小和显示区域，以便角色能够正确显示在屏幕上。

- 演员在录制过程中应保持稳定。

- 注意面部表情，它应该适合虚拟形象的应用场景。例如，如果将自定义文本转语音虚拟形象用作客户服务，需要看起来很积极，并且保持微笑。如果头像用于新闻报道，则需要看起来比较专业。

- 即使使用电子提词器，也要保持眼睛盯着相机。

- 暂停说话时，将身体恢复到状态 0。

- 根据自己选择的主题说话，一些小的语音错误（例如漏词或发音错误）是可以接受的。如果演员漏掉了一个词或念错了某内容，则只需返回状态 0虚拟聊天剪辑，停顿 3 秒，然后继续说话。

- 有意识地在句子和段落之间停顿。暂停时，返回状态 0 并闭上嘴唇。

- 音频应足够清晰且足够大；音频质量不佳会影响训练结果。

- 拍摄环境应保持安静。

- 不要调整相机参数、焦距、位置、视角。不要移动相机；使人员的位置、大小、角度在相机中保持一致。

- 角色太小可能会导致后期处理过程中图像质量下降。角色太大可能会导致做手势和动作时超出屏幕范围。

- 不要做太长或动作太多的手势；例如，演员的手总是在做手势，忘记回到状态 0。

- 演员的动作和手势不得挡住面部。

- 避免演员的小动作，如舔嘴唇、摸头发、侧身说话、说话时不断摇头、说完后不闭嘴等。

- 避免背景噪音；工作人员应避免在录像过程中走动和说话。

- 避免在演员说话期间录制到其他人的声音。

如何准备交互视频剪辑

如果要与自定义虚拟形象建立实时对话，则创建高质量的交互视频剪辑至关重要。剪辑应包含问答格式，由摄影师提出问题，演员进行回答。循环问答对，直到对话完成。如果你独自拍摄，则想象别人在提问阶段提出问题。

下面是每个阶段的一些提示：

提问阶段

回答阶段

视频总长度

数据要求

对视频数据进行一些基本处理有助于提高模型训练效率，例如：

虚拟形象训练视频录制文件格式：.mp4 或 .mov。

分辨率：至少 1920x1080。

每秒帧速率：至少 25 FPS。

虚拟聊天剪辑（自定义文本转语音虚拟形象制作）

虚拟聊天剪辑（AI生成乔布斯视频）

欠10万网贷有什么后果（网贷法律边界）

中年再就业指南（中年失业如何重建生活秩序）

欠10万网贷有什么后果（年轻人网络贷款警惕）

反季情绪（月度账单省钱攻略）

玻璃心职场（大学生异地实习经历）

文章评论(0)

创业干货

注册