ai数字人制作教程(数字如何制作)


简单地说,数字人就是在数字世界的“人”。当前语境下我们谈到的数字人通常指的是借助AI技术驱动的虚拟世界人物,具备与真实人类相似甚至接近的外形、感知、交互与行为能力。

AI技术在智能数字人的应用中举足轻重,特别是随着大模型能力的涌现,一个完整的数字人系统是一个融合多种AI能力、形象设计、建模、高性能渲染引擎等多种计算机技术的综合体。

本文将一起来认识一个完整的交互式数字人系统的结构、原理与相关工具。并借助开源的数字人项目Fay,演示一个简单的基于LLM的实时对话的3D数字人。

ai数字人制作教程

你也能懂:数字人是如何工作的

一个完整的交互式数字人系统的整体架构可以用下图来表示:

ai数字人制作教程

即使对于一个非专业技术人员,这个系统原理也并不难理解:

语音输入与识别:这是数字人能“听”的基础。这部分借助于自动语音识别(ASR)技术来完成,将语音输入首先转化为自然语言的文本。通常可以借助在线云服务来完成,或者部署本地ASR模型来实现。

AI交互处理:这是交互型数字人的“大脑”功能。在大语言模型(LLM)出现以后,其给数字人赋予了真正的智慧与灵魂。借助LLM,理解自然语言的输入,并推理生成需要响应的内容。

语音合成: 这是数字人能“说”的基础。在获得文本的响应内容后,为了让数字人能够用语音“说话”,需要借助语音合成(TTS)的AI模型来把文本转化为音频流。在这个阶段,为了让数字人更像“人”,会涉及到合成音色的选择,甚至采用真人语音来训练合成模型(还记得AI孙燕姿吗?)。

数字人驱动: 这一步就是用合成的音频流等数据来驱动已经创建好的前端数字人,让数字人边“说”边“动“,包括声音、动作、表情。根据数字人的不同类型,这可能需要借助不同的引擎或者AI模型。比如:

数字人:这是终端呈现出的虚拟数字人形象与动画视频,可以是3D或者2D。 比如一个3D高保真的数字人最常见的是借助Metahuman做建模,然后通过Unreal引擎导入模型进行渲染与运行。

ai数字人制作教程

显然,一个完整的交互式数字人系统需要有效地集成不同的模型、引擎与工具,才能最终呈现完美的效果。

让我们首先来简单了解前端3D数字人的创建过程。

创造躯体:3D数字人建模与开发

我们经常提到的一些任务机器人,一般只是一个能够自动工作的计算机程序。但数字人的特点是需要一个具体的虚拟人物形象,并且这个形象能够像“人”一样能说会动。因此,对于数字人项目来说,首当其冲的是需要准备这样的虚拟人物。这其中最逼真、应用场景最广泛,而且也是最复杂的,是3D高保真高解析度数字人,创建这样的虚拟人你需要完成形象设计、建模、动画制作,以及定义在虚拟场景中的行为逻辑(类似游戏场景)。

这里我们用著名的游戏引擎Unreal Engine系列工具来认识3D数字人的制作过程:

ai数字人制作教程

ai数字人制作教程

这个步骤是数字人设计的核心。借助UE提供的一种可视化编辑环境与脚本语言,你无需太多编程知识,就可以创建数字人的行为逻辑,比如控制角色在场景里的动作等。当然,作为交互式数字人最重要的环节也需要在这里进行定义:如何接受音频流、情绪数据等信息来驱动数字人说话、唇形甚至动作。

ai数字人制作教程

借助iPhone实现面部表情捕捉并用于数字人:

ai数字人制作教程

本图片来自Unreal官方网站

可视化的设计数字人的交互行为逻辑:

ai数字人制作教程

现在,我们直接下载Fay开源项目中已经完成的一个UE5数字人工程用于测试:

1. 安装Unreal引擎环境

进入官网,下载EpicGames Launcher安装包,并注册账号;下载完成后,根据提示自行安装即可。

运行已经安装的程序,安装Unreal引擎版本,建议安装5.0.3。此处安装包较大,注意留足够的空间。

2. 在Unreal商城中安装以下插件:

3. 选择下载Fay开源项目中的一个数字人工程(github搜索fay-ue5),这里我们选择一个UE5版本的数字人。

4. 运行数字人。 下载完成后解压,双击fay_ue5.uproject文件会自动使用UE环境打开项目,点击运行按钮,即可以看到运行中的数字人:

ai数字人制作教程

5. 【可选】数字人工程查看与编辑。 借助环境中的编辑器,可以看到数字人的相关行为逻辑,比如是如何借助websocket接收语音流并驱动数字人“说话”。如果你有兴趣驱动自己设计的数字人,可以参考此处的程序设计。

ai数字人制作教程

当然,此刻运行的数字人是无法互动的,原因是她目前只有“躯体”,还缺乏真正的智慧告诉她怎么与你互动,这也就是后端的数字人控制器。

赋予智慧:构建数字人的控制器

我们把前面的基本原理图稍稍细化下,这里的黄色部分就构成了数字人的控制器:

ai数字人制作教程

控制器作为数字人的大脑中枢,承担着借助各种AI技术来与真实人类完成最终交互所需的关键能力,并将输出通过数字人的语音、动作、表情进行呈现,从而完成整个交互闭环。

这里简单介绍每个模块构建的基础技术及可能选择:

【语音识别模块】

语音识别模块通过监听设备语音输入设备(麦克风),采集语音流,并借助ASR模型与接口实时转换为文本内容,用于后续交互处理模块。ASR接口的实现可以借助现成的API或者模型:

【AI交互处理模块】

这是控制器的核心模块。在LLM出现以后,很容易想到借助其强大的自然语言理解与生成能力来做出更加自然的数字人响应,只需要简单的将语音识别出来的文本内容组装到Prompt,并调用大模型的API接口输出即可。

当然,对于企业客户来说,直接的LLM响应可能无法满足企业的实际需求,因此,借助RAG(检索增强生成)给LLM补充企业私有知识,以生成更个性化与企业相关的响应内容是一种常见的方案。

这个模块中常见的技术选择有:

ai数字人制作教程

【语音合成模块】

AI响应生成以后的文本交给TTS模块,进行语音合成音频后用于后续驱动数字人的语音输出。为了让生成的语音更加自然与拟人,此处通常会涉及到两个额外的选项:

这个模块中常见的技术选择有:

【数字人通信】

这个模块用来把合成的音频流、情绪数据、甚至唇形数据传递给前端的数字人,用来驱动数字人的语音与动作输出。

在本文演示的Fay开源项目中ai数字人制作教程,这部分由前端数字人项目中UE的WebSocket插件与后端控制器通过WebSocket通道来完成:将TTS模块生成的音频/情绪等数据发送给数字人,数字人使用收到的数据来合成动画视频,最后播放音视频给交互者。

现在,我们来下载 Fay开源项目控制器代码进行测试(这里采用最常见的助理版本,通常用来构建一问一答型的交互数字人):

下载Fay开源项目源代码(助理版)

安装依赖pip install -r requirements.txt(建议使用conda虚拟环境)

**执行python main.py启动控制器。**此时可以看到一个UI界面,提供了简单的直接文字对话测试的功能和一些设置,比如TTS声音的选择。

如果此时已启动前端UE数字人,就可以看到“数字人已连接”的提示(下图红框中):

ai数字人制作教程

4. 开启麦克风: 启动控制器的麦克风音频采集,这样,数字人就能够听到你的声音,并给予回复:

ai数字人制作教程

在控制器的后台,你可以完整的看到处理过程与日志:

ai数字人制作教程

PART 04

数字人系统的优化挑战

上文我们使用一个开源的数字人项目Fay(再次感谢Fay项目的贡献者)来拆解并学习了一个完整的3D交互数字人的架构,并做了简单测试。但是请注意,这里只是一个演示基本工作流程的数字人,而在真实的企业应用中,根据数字人的应用场景,还有大量的需要个性化设计、优化与完善的环节,包括:

这些都是在实际数字人工程中可能会面临的挑战,我们也期待有更多优秀的数字人开源项目与工程平台的出现。

如何学习AI大模型 ? “最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。

二方面是可以根据这些资料规划好学习计划和方向。

有需要的小伙伴,可以VX扫描下方二维码免费领取

ai数字人制作教程

1.大模型入门学习思维导图

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)

在这里插入图片描述

2.AGI大模型配套视频

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述

在这里插入图片描述

3.大模型实际应用报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

4.大模型落地应用案例PPT

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

5.大模型经典学习电子书

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)

img

在这里插入图片描述

6.大模型面试题&答案

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述

学会后的收获:

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能,学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力ai数字人制作教程,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

有需要的小伙伴,可以Vx扫描下方二维码免费领取

ai数字人制作教程

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系QQ3361245237,本站将立刻清除。