针对虚拟人的语音合成方法、装置、设备、介质及产品与流程-尊龙凯时官方app下载

文档序号:36402186发布日期:2023-12-16 06:58阅读:8来源:国知局
针对虚拟人的语音合成方法、装置、设备、介质及产品与流程

1.本技术涉及人工智能领域,特别涉及一种针对虚拟人的语音合成方法、装置、设备、介质及产品。


背景技术:

2.随着人工智能技术的发展,在很多应用场景下通过利用一种通用的文本转语音模型,实现将文本内容转换为语音内容。但该通用的文本转语音模型只能根据其模型的特点生成具有固定音色的语音内容。
3.相关技术中,为了在虚拟人场景中提供个性化的语音内容,通过利用目标人的样本语音片段对文本转语音模型进行训练,使训练后的文本转语音模型能够生成具有目标人的语音特征的语音内容。
4.但是,在实际应用中无法获取到大量的目标人的样本语音片段对文本转语音模型进行训练,因此在使用利用目标人的样本语音片段训练得到的文本转语音模型时,可能出现生成的语音内容不准确的现象。比如,在目标人的样本语音片段中不存在“银行(hang)”的情况下,则由文本转语音模型生成的语音内容中可能为“银行(xing)”。


技术实现要素:

5.本技术提供了一种针对虚拟人的语音合成方法、装置、设备、介质及产品,技术方案如下:
6.根据本技术的一方面,提供了一种针对虚拟人的语音合成方法,所述方法包括:
7.获取第一文本内容,所述第一文本内容包括与所述虚拟人进行互动的文本信息;
8.将所述第一文本内容输入大语言模型,得到第二文本内容,所述大语言模型用于对所述第一文本内容进行自然语言回复处理;
9.基于文本转语音模型,将所述第二文本内容转换为第一语音内容,所述第一语音内容是与所述第二文本内容对应的语音信息;
10.基于虚拟人语音模型对所述第一语音内容进行推理,得到第二语音内容,所述第二语音内容包括目标人的语音特征;
11.其中,所述虚拟人语音模型用于实现将具有通用语音特征的语音内容,推理为具有所述目标人的语音特征的语音内容,所述文本转语音模型在训练过程中使用的样本字词数量大于所述虚拟人语音模型在训练过程中使用的样本字词数量。
12.根据本技术的另一方面,提供了一种针对虚拟人的语音合成方法,所述方法包括:
13.显示包括所述虚拟人的互动界面;
14.响应于用于与所述虚拟人进行互动的互动操作,获取第一文本内容,所述第一文本内容包括与所述虚拟人进行互动的文本信息;
15.播放所述虚拟人讲述的第二语音内容,所述第二语音内容是基于虚拟人语音模型对第一语音内容进行推理得到的,所述第一语音内容是基于文本转语音模型对第二文本内
容转换得到的,所述第二文本内容是基于大语言模型对所述第一文本内容进行自然语言回复处理得到的;
16.其中,所述虚拟人语音模型用于实现将具有通用语音特征的语音内容,推理为具有所述目标人的语音特征的语音内容,所述文本转语音模型在训练过程中使用的样本字词数量大于所述虚拟人语音模型在训练过程中使用的样本字词数量。
17.根据本技术的另一方面,提供了一种针对虚拟人的语音合成装置,所述装置包括:
18.获取模块,用于获取第一文本内容,所述第一文本内容包括与所述虚拟人进行互动的文本信息;
19.处理模块,用于将所述第一文本内容输入大语言模型,得到第二文本内容,所述大语言模型用于对所述第一文本内容进行自然语言回复处理;
20.所述处理模块,还用于基于文本转语音模型,将所述第二文本内容转换为第一语音内容,所述第一语音内容是与所述第二文本内容对应的语音信息;
21.所述处理模块,还用于基于虚拟人语音模型对所述第一语音内容进行推理,得到第二语音内容,所述第二语音内容包括目标人的语音特征;
22.其中,所述虚拟人语音模型用于实现将具有通用语音特征的语音内容,推理为具有所述目标人的语音特征的语音内容,所述文本转语音模型在训练过程中使用的样本字词数量大于所述虚拟人语音模型在训练过程中使用的样本字词数量。
23.根据本技术的另一方面,提供了一种针对虚拟人的语音合成装置,所述装置包括:
24.显示模块,用于显示包括所述虚拟人的互动界面;
25.交互模块,用于响应于用于与所述虚拟人进行互动的互动操作,获取第一文本内容,所述第一文本内容包括与所述虚拟人进行互动的文本信息;
26.播放模块,用于播放所述虚拟人讲述的第二语音内容,所述第二语音内容是基于虚拟人语音模型对第一语音内容进行推理得到的,所述第一语音内容是基于文本转语音模型对第二文本内容转换得到的,所述第二文本内容是基于大语言模型对所述第一文本内容进行自然语言回复处理得到的;
27.其中,所述虚拟人语音模型用于实现将具有通用语音特征的语音内容,推理为具有所述目标人的语音特征的语音内容,所述文本转语音模型在训练过程中使用的样本字词数量大于所述虚拟人语音模型在训练过程中使用的样本字词数量。
28.根据本技术的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行,以实现如上方面所述的针对虚拟人的语音合成方法。
29.根据本技术的另一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一段程序,所述至少一段程由处理器加载并执行以实现如上方面所述的针对虚拟人的语音合成方法。
30.根据本技术的另一方面,提供了一种计算机程序产品,该计算机程序产品包括至少一段程序,所述至少一段程序存储在计算机可读存储介质中;计算机设备的处理器从所述计算机可读存储介质中读取所述至少一段程序,所述处理器执行所述至少一段程序,使得所述计算机设备执行如上方面所述的针对虚拟人的语音合成方法。
31.本技术提供的技术方案带来的有益效果至少包括:
32.通过获取与虚拟人进行互动的第一文本内容,基于大语言模型从第一文本内容获取第二文本内容,基于文本转语音模型将第二文本内容转换为第一语音内容,基于虚拟人语音模型将第一语音内容最终推理得到具有目标人的语音特征的第二语音内容。其中,文本转语音模型在训练过程中使用的样本字词数量大于虚拟人语音模型在训练过程中使用的样本字词数量,也即文本转语音模型的训练样本是海量的,而虚拟人语音模型的训练样本是少量的。因此,通过利用由海量样本训练得到的文本转语音模型作为中间层,将第二文本内容转换为第一语音内容,能够解决在虚拟人语音模型的训练样本较少的情况下,生成的语音内容不准确的现象。通过先利用由海量样本训练得到的文本转语音模型进行缓冲处理,再利用由少量样本训练得到的虚拟人语音模型,能够在一定程度上使生成的第二语音内容更加自然和流畅,从而有效提高语音识别的准确率和鲁棒性。
附图说明
33.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1是本技术的一个示例性实施例提供的计算机系统的结构框图;
35.图2是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的流程图;
36.图3是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的流程图;
37.图4是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的流程图;
38.图5是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的流程图;
39.图6是本技术的一个示例性实施例提供的时间长度阈值的示意图;
40.图7是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的流程图;
41.图8是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的流程图;
42.图9是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的流程图;
43.图10是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的流程图;
44.图11是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的界面示意图;
45.图12是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的界面示意图;
46.图13是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的流程图;
47.图14是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的流程图;
48.图15是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的流程图;
49.图16是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的交互流程图;
50.图17是本技术的一个示例性实施例提供的针对虚拟人的语音合成方法的流程图;
51.图18是本技术的一个示例性实施例提供的针对虚拟人的语音合成装置的框图;
52.图19是本技术的一个示例性实施例提供的针对虚拟人的语音合成装置的框图;
53.图20是本技术的一个示例性实施例提供的计算机设备的框图。
具体实施方式
54.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
55.首先,对本技术实施例中涉及的名词进行简单介绍:
56.虚拟人:用于模拟真实人的语言表达、动作姿态和思维方式的虚拟人物。是指一种人工智能实体,由计算机程序和计算机技术创建。虚拟人的应用领域包括智能客服、直播互动、游戏、教育中的至少一种。
57.音色迁移:是指一种语音转换(voice conversion,vc)技术,能够将a说话人的声音转换成b说话人的声音。通过分析源语音(a说话人的语音)和目标语音(b说话人的语音)的声音特点,然后使用算法对源语音进行处理,使其具有和目标语音相似的声音特点。
58.文本转语音:用于将文本内容转换为语音内容,是一种人工智能技术,计算机可以模拟人类的语音,从而实现语音合成和语音识别等功能。
59.大语言模型(large language model,llm):是指一种用于进行自然语言回复处理的模型,用于训练该模型的文本数据的数量大于数量阈值,该模型的结构中通常包含数十亿参数。该模型可以自动学习文本序列的规律和语义信息,从而生成人类类似的自然语言文本,被广泛应用于自然语言处理、机器翻译、对话系统等领域,具有强大的语义理解和语言生成能力。
60.人工智能(artificial intelligence,ai):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术科学。人工智能可以模拟人的思维模式来完成一项工作。在虚拟环境中,人工智能可以模拟用户控制虚拟角色的方式,来控制虚拟角色,例如,控制虚拟角色在虚拟环境中行走、攻击其他虚拟角色。人工智能可以指模拟人的思维模式的程序、算法、软件,其执行主体可以是计算机系统、服务器或终端。
61.图1示出了本技术一个示例性实施例提供的计算机系统的结构框图。该计算机系统100包括:终端120和服务器140。
62.终端(或称客户端)120安装和运行有支持虚拟人的应用程序。该应用程序可以是娱乐类应用程序、直播类应用程序、游戏类应用程序中的任意一种。终端120是由用户使用的终端,用户使用终端120与虚拟人进行互动。
63.终端120通过无线网络或有线网络与服务器140相连。
64.服务器140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示意性的,服务器140包括处理器144和存储器142,存储器142又包括显示模块1421、输入/输出模块1422和检测模块1423。服务器140用于为支持虚拟人的应用程序提供后台服务。可选地,服务器140承担主要计算工作,终端120承担次要计算工作;或者,服务器140承担次要计算工作,终端120承担主要计算工作;或者,服务器140和终端120之间采用分布式计算架构进行协同计算。
65.本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量。本技术实施例对终端的数量和设备类型不加以限定。
66.需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户账号信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以
及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本技术中涉及到的信息都是在充分授权的情况下获取的,客户端和服务器仅在程序运行期间缓存该信息,并不会固化存储和二次利用该信息的相关数据。
67.图2是本技术一个示例性实施例提供的针对虚拟人的语音合成方法的流程图。该方法由图1所示的计算机系统100中的服务器140执行,包括:
68.步骤220:获取第一文本内容;
69.该第一文本内容包括与虚拟人进行互动的文本信息。在一些实施例中,该第一文本内容是基于用户输入的输入内容获得的。可选的,该第一文本内容包括用户输入的文本内容。示例性的,用户输入的文本内容为“你好吗”,则“你好吗”即作为第一文本内容。可选的,该第一文本内容包括基于用户输入的语音内容获得的。示例性的,用户输入语音内容,基于语音识别模型,对用户输入的语音内容进行识别,得到第一文本内容。
70.步骤240:将第一文本内容输入大语言模型,得到第二文本内容;
71.将第一文本内容输入大语言模型,该大语言模型用于对第一文本内容进行自然语言回复处理,得到经过自然语言回复处理过的第二文本内容。示例性的,在第一文本内容为“你好吗”的情况下,将“你好吗”输入大语言模型,得到第二文本内容为“我很好”。可选的,该大语言模型是chat gpt模型。可选的,该大语言模型是gpt-4模型。
72.步骤260:基于文本转语音模型,将第二文本内容转换为第一语音内容;
73.基于能够将文本内容转换为语音内容的文本转语音模型,将第二文本内容输入文本转语音模型,输出转换后的第一语音内容。在一些实施例中,第一语音内容是与第二文本内容对应的语音信息。示例性的,第二文本内容为“我很好”,则第一语音内容对应为“我很好”的语音内容。
74.在一些实施例中,该文本转语音模型是基于大量的样本训练得到的通用模型,该文本转语音模型在训练过程中使用的样本字词数量是海量的。
75.步骤280:基于虚拟人语音模型对第一语音内容进行推理,得到第二语音内容。
76.将第一语音内容输入虚拟人语音模型进行推理,得到第二语音内容。该虚拟人语音模型用于实现将具有通用语音特征的语音内容,推理为具有目标人的语音特征的语音内容。也即,第二语音内容包括目标人的语音特征。在一些实施例中,该目标人的语音特征包括音色特征、情感特征、韵律特征中的至少一种。
77.在一些实施例中,该虚拟人语音模型采用深度神经网络实现,本技术实施例中以该虚拟人语音模型采用卷积神经网络实现为例进行说明,但本领域内的技术人员可知该深度神经网络的模型类型和拓扑结构不仅限于卷积神经网络一种。在一些实施例中,用于实现虚拟人语音模型的卷积神经网络包括输入层、推理层和输出层中的至少一种。其中,输入层用于将虚拟人语音模型的输入数据编码为特征向量;推理层用于对输入层的输出进行二次音色赋予;输出层用于输出推理层的输出结果。
78.在一些实施例中,该虚拟人语音模型是基于一种开源免费的ai语音转换软件训练得到的,用户通过训练数据制作目标人的ai声库,并将一段语音或歌声转换为所需的音色,可以理解为从声音到声音(voice to voice)。该ai语音转换软件使用了端到端架构,并可以处理语音转换的任务。
79.在一些实施例中,该虚拟人语音模型是基于有限的样本训练得到的音色赋予模型。该虚拟人语音模型在训练过程中使用的样本字词数量是少量的。在一些实施例中,上述文本转语音模型在训练过程中使用的样本字词数量大于虚拟人语音模型在训练过程中使用的样本字词数量。应当理解的是,在保证文本转语音模型在训练过程中使用的样本字词数量大于虚拟人语音模型在训练过程中使用的样本字词数量的情况下,即能解决虚拟人语音模型的训练样本数量较少所导致的第二语音内容不准确的问题。而在文本转语音模型在训练过程中使用的样本字词数量远大于虚拟人语音模型在训练过程中使用的样本字词数量的情况下,本技术实施例提供的针对虚拟人的语音合成方法能够实现更好的应用效果。
80.综上所述,本技术实施例提供的方法,通过获取与虚拟人进行互动的第一文本内容,基于大语言模型从第一文本内容获取第二文本内容,基于文本转语音模型将第二文本内容转换为第一语音内容,基于虚拟人语音模型将第一语音内容最终推理得到具有目标人的语音特征的第二语音内容。其中,文本转语音模型在训练过程中使用的样本字词数量大于虚拟人语音模型在训练过程中使用的样本字词数量,也即文本转语音模型的训练样本是海量的,而虚拟人语音模型的训练样本是少量的。因此,通过利用由海量样本训练得到的文本转语音模型作为中间层,将第二文本内容转换为第一语音内容,能够解决在虚拟人语音模型的训练样本较少的情况下,生成的语音内容不准确的现象。通过先利用由海量样本训练得到的文本转语音模型进行缓冲处理,再利用由少量样本训练得到的虚拟人语音模型,能够在一定程度上使生成的第二语音内容更加自然和流畅,从而有效提高语音识别的准确率和鲁棒性。
81.在一些实施例中,上述虚拟人语音模型是训练得到的。图3是本技术一个示例性实施例提供的针对虚拟人的语音合成方法的流程图。上述方法还包括如下步骤:
82.步骤320:获取目标人的样本语音片段;
83.获取用于训练虚拟人语音模型的样本语音片段,该样本语音片段是具有目标人的语音特征的语音片段。在一些实施例中,该样本语音片段是从已有的语音片段中截取得到的。示例性的,从某新闻媒体的采访片段中截取得到某公众人物的采访语音,某公众人物即为目标人。在一些实施例中,该样本语音片段是由目标人录制得到的录制音频。在一些实施例中,该样本语音片段中的字词数量小于文本转语音模型中的字词数量。
84.在一些实施例中,在需要获取目标人的样本语音片段的情况下,首先会获取使用该样本语音片段的授权。在一些实施例中,通过一个授权弹窗,提示被授权使用目标人的样本语音片段,在确认被授权的情况下,获取目标人的样本语音片段。
85.在一些实施例中,该授权仅用于提供本技术实施例中的目标人的样本语音片段,在获取到目标人的样本语音片段后,系统会自动删除相关信息。
86.步骤340:基于样本语音片段,对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。
87.在一些实施例中,基于具有目标人的语音特征的样本语音片段,对虚拟人语音模型进行训练,使训练好的虚拟人语音模型能够将具有通用语音特征的语音内容推理为具有目标人的语音特征的语音内容。
88.在一些实施例中,如图4所示,上述步骤340还包括如下子步骤:
89.步骤341:提取样本语音片段中的目标人的语音特征;
90.在一些实施例中,基于样本语音片段,提取样本语音片段中的语音特征,作为目标人的语音特征。在一些实施例中,样本语音片段中包括目标人的语音特征。可选的,该样本语音片段中的目标人的语音特征包括目标人的音色特征、情感特征、韵律特征中的至少一种。
91.在一些实施例中,对样本语音片段中的目标人的音色特征进行提取。在一些实施例中,该目标人的音色特征包括低沉的音色、明亮的音色、年轻的音色中的至少一种。在一些实施例中,通过预先训练好的第一特征提取网络对样本语音片段中的目标人的音色特征进行提取。该第一特征提取网络是通过第一样本语音训练集训练得到的,该第一样本语音训练集包括至少一段样本语音,每一段样本语音中对应有样本音色特征。将至少一段样本语音输入第一特征提取网络中,输出预测音色特征。将预测音色特征和作为标签的样本音色特征进行比对,计算得到第一误差损失。通过误差反向传播算法基于第一误差损失对第一特征提取网络中的参数进行训练,经过多次训练,例如经过一万个样本训练或模型收敛的情况下,得到训练好的能够提取音色特征的第一特征提取网络。
92.在一些实施例中,对样本语音片段中的目标人的情感特征进行提取。在一些实施例中,该目标人的情感特征包括难过的情感、开心的情感、委屈的情感中的至少一种。在一些实施例中,通过预先训练好的第二特征提取网络对样本语音片段中的目标人的情感特征进行提取。该第二特征提取网络是通过第二样本语音训练集训练得到的,该第二样本语音训练集包括至少一段样本语音,每一段样本语音中对应有样本情感特征。将至少一段样本语音输入第二特征提取网络中,输出预测情感特征。将预测情感特征和作为标签的样本情感特征进行比对,计算得到第二误差损失。通过误差反向传播算法基于第二误差损失对第二特征提取网络中的参数进行训练,经过多次训练,例如经过一万个样本训练或模型收敛的情况下,得到训练好的能够提取情感特征的第二特征提取网络。
93.在一些实施例中,对样本语音片段中的目标人的韵律特征进行提取。在一些实施例中,该目标人的韵律特征包括长停顿、短停顿、音高变化中的至少一种。在一些实施例中,通过预先训练好的第三特征提取网络对样本语音片段中的目标人的韵律特征进行提取。该第三特征提取网络是通过第三样本语音训练集训练得到的,该第三样本语音训练集包括至少一段样本语音,每一段样本语音中对应有样本韵律特征。将至少一段样本语音输入第三特征提取网络中,输出预测韵律特征。将预测韵律特征和作为标签的样本韵律特征进行比对,计算得到第三误差损失。通过误差反向传播算法基于第三误差损失对第三特征提取网络中的参数进行训练,经过多次训练,例如经过一万个样本训练或模型收敛的情况下,得到训练好的能够提取情感特征的第三特征提取网络。
94.步骤342:基于目标人的语音特征,对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。
95.在一些实施例中,目标人的语音特征包括目标人的音色特征、情感特征、韵律特征中的至少一种。
96.在一些实施例中,在目标人的语音特征中仅包括一种特征的情况下,基于该一种特征对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。在一些实施例中,基于目标人的音色特征,对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。在一些实施例中,基于目标人的情感特征,对虚拟人语音模型进行训练,得到训练好的虚拟人语音模
型。在一些实施例中,基于目标人的韵律特征,对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。
97.在一些实施例中,在目标人的语音特征中包括至少两种特征的情况下,基于该至少两种特征对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。在一些实施例中,基于目标人的音色特征和情感特征,对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。在一些实施例中,基于目标人的音色特征和韵律特征,对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。在一些实施例中,基于目标人的情感特征和韵律特征,对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。在一些实施例中,基于目标人的音色特征、情感特征和韵律特征,对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。
98.在一些实施例中,在目标人的语音特征中包括至少两种特征的情况下,对至少两种特征进行拼接,得到拼接特征。基于拼接特征对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。
99.在一些实施例中,在目标人的语音特征中包括至少两种特征的情况下,对至少两种特征设置各自对应的权重,基于至少两种特征各自对应的权重对至少两种特征进行拼接,得到拼接特征。在一些实施例中,至少两种特征各自对应的权重是预先设置的固定值。在一些实施例中,至少两种特征各自对应的权重是自动调节的。在一些实施例中,至少两种特征各自对应的权重设置为可由用户进行手动调节的。
100.在一些实施例中,基于语音风格识别模型,对目标人的语音风格进行识别。该目标人的语音风格包括第一语音风格、第二语音风格和第三语音风格中的至少一种。在一些实施例中,该目标人的语音风格与目标人的语音特征的权重相关,目标人的语音特征包括目标人的音色特征、情感特征、韵律特征中的至少一种。
101.在一些实施例中,在目标人的语音风格为第一语音风格的情况下,目标人的音色特征的权重大于情感特征的权重且音色特征的权重大于韵律特征的权重。示例性的,在目标人的语音风格为第一语音风格的情况下,则音色特征的权重为50%、情感特征的权重为25%、韵律特征的权重为25%。
102.在一些实施例中,在目标人的语音风格为第二语音风格的情况下,目标人的情感特征的权重大于音色特征的权重且情感特征的权重大于韵律特征的权重。示例性的,在目标人的语音风格为第二语音风格的情况下,则音色特征的权重为25%、情感特征的权重50%、韵律特征的权重为25%。
103.在一些实施例中,在目标人的语音风格为第三语音风格的情况下,目标人的韵律特征的权重大于音色特征的权重且韵律特征的权重大于情感特征的权重。示例性的,在目标人的语音风格为第三语音风格的情况下,则音色特征的权重为25%、情感特征的权重为25%、韵律特征的权重为50%。
104.在一些实施例中,基于目标人的语音风格,确定目标人的语音特征的权重。基于目标人的语音特征的权重,对目标人的语音特征进行拼接,得到拼接特征;或,基于目标人的语音特征的权重,对目标人的语音特征进行融合,得到融合特征。基于拼接特征或融合特征对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。
105.在一些实施例中,该语音风格识别模型是通过样本语音训练集训练得到的,该样
本语音训练集包括样本语音片段,该样本语音片段对应有样本语音风格。将样本语音片段输入语音风格识别模型中,输出预测语音风格。将预测语音风格和作为标签的样本语音风格进行比对,计算得到风格误差损失。通过误差反向传播算法基于风格误差损失对语音风格识别模型中的模型参数进行训练,经过多次训练,例如经过一万个样本训练或模型收敛的情况下,得到训练好的能够识别语音风格的语音风格识别模型。
106.综上所述,本技术实施例提供的方法,通过训练得到虚拟人语音模型,使通过该训练好的虚拟人语音模型,能够将具有通用语音特征的语音内容推理为具有目标人的语音特征的语音内容,从而避免生成大众化的语音内容;同时,训练该虚拟人语音模型的成本低廉,能够在一定程度上解决声音定制昂贵的问题。
107.本技术实施例提供的方法,通过语音风格识别模型对目标人的语音风格进行识别,从而能够在只有少量训练样本的情况下,通过识别少量样本中的目标人的语音风格,确定目标人的语音特征的权重,从而实现对虚拟人语音模型的训练。
108.在一些实施例中,上述样本语音片段是经过语音处理后得到的。图5是本技术一个示例性实施例提供的针对虚拟人的语音合成方法的流程图。上述方法还包括如下步骤:
109.步骤420:获取目标人的样本语音;
110.获取目标人的样本语音。在一些实施例中,该样本语音是从已有的语音片段中截取得到的。示例性的,从某新闻媒体的采访片段中截取得到某公众人物的采访语音,某公众人物即为目标人。在一些实施例中,该样本语音是由目标人录制得到的录制音频。
111.在一些实施例中,该目标人的样本语音中不包括背景声音信息。在一些实施例中,该目标人的样本语音中除目标人的语音之外,还包括背景声音信息,如该目标人的样本语音中包括背景音乐。为了增加后续训练虚拟人语音模型时的准确度,在该目标人的样本语音中包括背景声音信息的情况下,基于语音处理技术,对目标人的样本语音中的背景声音信息进行去除。本技术实施例中以该目标人的样本语音中不包括背景声音信息为例进行举例说明。
112.步骤440:对样本语音中的目标声音信息进行静音或剪切处理,得到剪切样本;
113.在一些实施例中,该样本语音中包括目标声音信息。该目标声音信息是指对样本语音中声音的辨识度有影响的信息。可选的,该目标声音信息是对样本语音中的声音的延续性有影响的信息。可选的,该目标声音信息是对样本语音中的声音的流畅感有影响的信息。
114.在一些实施例中,该目标声音信息包括样本语音中的换气声、停顿、机械音中的至少一种。
115.在一些实施例中,通过对样本语音中的目标声音信息进行识别,对识别到的目标声音信息进行静音或剪切处理,得到剪切样本。在一些实施例中,通过预先训练好的声音信息识别模型对样本语音中的目标声音信息进行识别。该声音信息识别模型是通过样本语音训练集训练得到的,该样本语音训练集包括至少一段样本语音,每一段样本语音中对应有样本声音信息。将至少一段样本语音输入声音信息识别模型中,输出预测声音信息。将预测声音信息和作为标签的样本声音信息进行比对,计算得到信息误差损失。通过误差反向传播算法基于信息误差损失对声音信息识别模型中的模型参数进行训练,经过多次训练,例如经过一万个样本训练或模型收敛的情况下,得到训练好的能够识别声音信息的声音信息
识别模型。
116.步骤460:根据时间长度阈值,对剪切样本进行分割处理,得到样本语音片段。
117.在一些实施例中,该剪切样本具有对应的剪切时长。如该剪切样本为两分钟的剪切音频,则该剪切样本对应的剪切时长为两分钟。
118.在一些实施例中,根据时间长度阈值,对剪切样本进行分割处理,得到样本语音片段。该时间长度阈值用于指示样本语音片段的时间长度。示例性的,如图6所示,剪切样本对应的剪切时长为n个b1秒,n的取值为大于0的正整数。b1秒为用于对剪切样本进行分割处理的时间长度阈值。则根据时间长度阈值b1秒,对剪切样本的剪切时长进行分割处理,得到n个样本语音片段,每个样本语音片段对应的样本语音时长为b1秒。
119.在一些实施例中,该时间长度阈值是基于系统的处理能力确定的。在一些实施例中,该时间长度阈值是预先设置的固定值。在一些实施例中,该时间长度阈值是基于系统实时的处理能力进行自动调节的。在一些实施例中,该时间长度阈值设置为可由用户进行手动调节的。
120.综上所述,本技术实施例提供的方法,通过获取目标人的样本语音,对目标人的样本语音进行处理得到样本语音片段,使得在训练虚拟人语音模型的过程中,能够使用时间长度合理且样本质量更高的样本语音片段对虚拟人语音模型进行训练,从而使虚拟人语音模型对具有目标人的语音特征的语音内容进行推理时能够获得更准确的语音推理结果。
121.在一些实施例中,目标人的样本语音片段是从含目标人的样本视频片段中获取得到的。图7是本技术一个示例性实施例提供的针对虚拟人的语音合成方法的流程图。上述方法还包括如下步骤:
122.步骤520:从样本视频片段中提取与至少一个语气词对应的目标肢体动作;
123.在一些实施例中,从含目标人的样本视频片段中提取至少一个目标肢体动作。该目标肢体动作是目标人的肢体动作。在一些实施例中,该目标肢体动作是基于目标人的骨骼点确定的,该骨骼点用于指示肢体动作变化。基于目标人的至少一个骨骼点的变化,确定目标人的骨骼点变化序列。基于骨骼点变化序列,确定目标人的肢体动作。
124.在一些实施例中,该目标肢体动作与至少一个语气词对应。该目标肢体动作是目标人在样本视频片段中与语气词对应的肢体动作。在一些实施例中,该目标肢体动作与语气词是一一对应的,如语气词“呢”对应第一目标肢体动作,语气词“吗”对应第二目标肢体动作。在一些实施例中,该目标肢体动作与语气词不是一一对应的,如语气词“呢”和语气词“吗”均对应第三目标肢体动作。
125.步骤540:基于目标肢体动作,构建目标人的肢体动作库;
126.在一些实施例中,在样本视频片段中包括m个语气词和与m个语气词对应的目标肢体动作的情况下,构建目标人的肢体动作库。该目标人的肢体动作库中包括至少一个目标肢体动作和与至少一个目标肢体动作对应的语气词。
127.步骤560:基于肢体动作库,生成与第二语音内容中的语气词对应的虚拟人的肢体动作。
128.基于包含至少一个目标肢体动作和与至少一个目标肢体动作对应的语气词的肢体动作库,生成与第二语音内容中的语气词对应的虚拟人的肢体动作。
129.在一些实施例中,虚拟人的肢体动作是基于虚拟人的骨骼点确定的。可选的,虚拟
人的骨骼点与目标人的骨骼点是一致的,如虚拟人包括t个骨骼点,目标人也包括t个骨骼点,虚拟人的t个骨骼点的位置比例与目标人的t个骨骼点的位置比例是一致的。可选的,虚拟人的骨骼点与目标人的骨骼点是不一致的,包括虚拟人的骨骼点数量和目标人的骨骼点数量不一致,和/或虚拟人的骨骼点的位置比例和目标人的骨骼点的位置比例是不一致的。
130.在一些实施例中,通过将目标人的骨骼点变化映射到虚拟人的骨骼点变化中,实现生成虚拟人的肢体动作。在一些实施例中,通过对肢体动作库中的目标肢体动作进行查找或检索,找到与第二语音内容中的语气词对应的目标肢体动作,将该目标肢体动作对应的目标人的骨骼点变化序列映射到虚拟人的骨骼点变化序列中,生成与第二语音内容中的语气词对应的虚拟人的肢体动作。
131.综上所述,本技术实施例提供的方法,通过从样本视频片段中提取目标肢体动作,并基于该目标肢体动作构建肢体动作库,使在生成虚拟人对应的第二语音内容的情况下,还能够生成与第二语音内容中的语气词对应的虚拟人的肢体动作。
132.在一些实施例中,目标人的样本语音片段是从含目标人的样本视频片段中获取得到的。图8是本技术一个示例性实施例提供的针对虚拟人的语音合成方法的流程图。上述方法还包括如下步骤:
133.步骤620:从样本视频片段中提取与至少一个语气词对应的目标表情;
134.在一些实施例中,从含目标人的样本视频片段中提取至少一个目标表情。该目标表情是目标人的表情。在一些实施例中,该目标人的表情是基于目标人的面部关键点确定的,该面部关键点用于指示面部表情变化。基于目标人的至少一个面部关键点,确定目标人的面部关键点的变化序列。基于面部关键点的变化序列,确定目标人的面部表情。
135.在一些实施例中,该目标表情与至少一个语气词对应。该目标表情是目标人在样本视频片段中与语气词对应的表情。在一些实施例中,该目标表情与语气词是一一对应的,如语气词“呢”对应第一目标表情,语气词“吗”对应第二目标表情。在一些实施例中,该目标表情与语气词不是一一对应的,如语气词“呢”和语气词“吗”均对应第三目标表情。
136.步骤640:基于目标表情,构建目标人的表情库;
137.在一些实施例中,在样本视频片段中包括m个语气词和与m个语气词对应的目标表情的情况下,构建目标人的表情库。该目标人的表情库中包括至少一个目标表情和与至少一个目标表情对应的语气词。
138.步骤660:基于表情库,生成与第二语音内容中的语气词对应的虚拟人的表情。
139.基于包含至少一个目标表情和与至少一个目标表情对应的语气词的表情库,生成与第二语音内容中的语气词对应的虚拟人的表情。
140.在一些实施例中,虚拟人的表情是基于虚拟人的面部关键点确定的。可选的,虚拟人的面部关键点与目标人的面部关键点是一致的,如虚拟人包括y个面部关键点,目标人也包括y个面部关键点,虚拟人的y个面部关键点的位置比例与目标人的y个面部关键点的位置比例是一致的。可选的,虚拟人的面部关键点与目标人的面部关键点是不一致的,包括虚拟人的面部关键点数量和目标人的面部关键点数量不一致,和/或虚拟人的面部关键点的位置比例和目标人的面部关键点的位置比例是不一致的。
141.在一些实施例中,通过将目标人的面部关键点变化映射到虚拟人的面部关键点变化中,实现生成虚拟人的表情。在一些实施例中,通过对表情库中的目标表情进行查找或检
索,找到与第二语音内容中的语气词对应的目标表情,将该目标表情对应的目标人的面部关键点变化序列映射到虚拟人的面部关键点变化序列中,生成与第二语音内容中的语气词对应的虚拟人的表情。
142.综上所述,本技术实施例提供的方法,通过从样本视频片段中提取目标表情,并基于该目标表情构建表情库,使在生成虚拟人对应的第二语音内容的情况下,还能够生成与第二语音内容中的语气词对应的虚拟人的表情。
143.图9是本技术一个示例性实施例提供的针对虚拟人的语音合成方法的流程图。在一些实施例中,上述方法还包括如下步骤:
144.步骤720:获取社交应用程序中的用户账号发送的虚拟人创建请求;
145.在一些实施例中,获取由社交应用程序中的用户账号发送的虚拟人创建请求,该虚拟人创建请求用于创建用户账号对应的虚拟人。
146.在一些实施例中,该社交应用程序是指支持创建虚拟人的应用程序。可选的,该社交应用程序包括直播类应用程序、娱乐类应用程序、游戏类应用程序中的至少一种。
147.在一些实施例中,该用户账号是用户在社交应用程序中登录的账号,该用户账号与创建的虚拟人绑定。也即,每一个用户账号对应有自己的虚拟人。在一些实施例中,由用户创建的虚拟人包括虚拟人角色、虚拟人形象、虚拟人名称中的至少一种。
148.步骤740:从用户帐号发布的自拍视频中获取用户帐号对应的真实人信息和样本语音片段;
149.在一些实施例中,收集或获取由用户账号发布的自拍视频,该自拍视频的数量不限。在一些实施例中,该用户账号发布自拍视频的社交应用程序与支持创建虚拟人的社交应用程序是同一个社交应用程序。在一些实施例中,该用户账号发布自拍视频的社交应用程序与支持创建虚拟人的社交应用程序是不同的社交应用程序。可选的,用户账号发布自拍视频的社交应用程序为a社交应用程序,支持创建虚拟人的社交应用程序为b社交应用程序,a社交应用程序上登录的用户账号和b社交应用程序上登录的用户账号是同一个用户账号。
150.在一些实施例中,从用户账号发布的自拍视频中获取用户账号对应的真实人信息。该真实人信息包括真实人的样貌特征、姿态特征、身材比例中的至少一种。
151.在一些实施例中,从用户账号发布的自拍视频中获取样本语音片段,该样本语音片段用于训练虚拟人语音模型。在一些实施例中,该样本语音片段是从用户账号发布的自拍视频中截取得到的。在一些实施例中,该样本语音片段是基于用户账号发布的自拍视频拼接得到的。
152.步骤760:基于用户帐号对应的真实人信息,生成与用户帐号对应的虚拟人;
153.在一些实施例中,用户账号对应的真实人信息包括真实人的样貌特征、姿态特征、身材比例中的至少一种。在一些实施例中,用户账号对应的虚拟人包括虚拟人信息。该虚拟人信息与用户账号对应的真实人信息是一致的,如用户账号对应的真实人信息包括z个信息参数,虚拟人信息中也包括z个信息参数,且用户账号对应的真实人信息中的z个信息参数和虚拟人信息中的z个信息参数是一一对应的。则通过z个一一对应的信息参数,生成与用户账号对应的虚拟人,该虚拟人具有和用户账号对应的真实人信息一致的虚拟人信息。
154.步骤780:将基于样本语音片段训练得到的虚拟人语音模型,与虚拟人绑定。
155.在一些实施例中,虚拟人语音模型是基于从用户账号发布的自拍视频中获得的样本语音片段训练得到的。虚拟人是基于从用户账号发布的自拍视频中获得的真实人信息生成的。也即,虚拟人语音模型和虚拟人均对应用户账号,则将虚拟人语音模型与虚拟人进行绑定,使基于虚拟人语音模型推理得到的第二语音内容与虚拟人绑定。
156.综上所述,本技术实施例提供的方法,通过获取社交应用程序中的用户账号发送的虚拟人创建请求,生成与用户账号对应的虚拟人,以及训练得到对应的虚拟人语音模型,使用户能够根据自己的需求和想法生成具有个人特色的虚拟人和由虚拟人讲述的第二语音内容。
157.图10是本技术一个示例性实施例提供的针对虚拟人的语音合成方法的流程图。该方法由图1所示的计算机系统100中的终端120执行,包括:
158.步骤820:显示包括虚拟人的互动界面;
159.在一些实施例中,在应用程序的界面上显示包括虚拟人的互动界面。该互动界面用于虚拟人和用户进行互动。示例性的,如图11所示,在娱乐类应用程序的界面上显示包括虚拟人11的互动界面12。示例性的,如图12所示,在直播类应用程序的界面上显示包括虚拟人11的互动界面12。
160.在一些实施例中,互动界面中包括至少一个用于显示文本的文本框,在至少一个文本框中显示文本内容,该文本内容包括第一文本内容和第二文本内容。示例性的,如图11所示,在互动界面12中包括第一文本框14、第二文本框15和第三文本框16。其中,第一文本框14用于显示第一文本内容,第二文本框15用于显示第二文本内容,第三文本框16用于提供给用户输入与虚拟人11进行互动的互动内容。
161.在一些实施例中,该第一文本内容包括与虚拟人进行互动的文本信息。在一些实施例中,该第一文本内容是基于用户输入的输入内容获得的。可选的,该第一文本内容包括用户输入的文本内容。示例性的,用户输入的文本内容为“你好吗”,则“你好吗”即作为第一文本内容。可选的,该第一文本内容包括基于用户输入的语音内容获得的。示例性的,用户输入语音内容,基于语音识别模型,对用户输入的语音内容进行识别,得到第一文本内容。
162.在一些实施例中,第二文本内容是基于大语言模型对第一文本内容进行自然语言回复处理得到的。将第一文本内容输入大语言模型,该大语言模型用于对第一文本内容进行自然语言回复处理,得到经过自然语言回复处理过的第二文本内容。示例性的,在第一文本内容为“你好吗”的情况下,将“你好吗”输入大语言模型,得到第二文本内容为“我很好”。可选的,该大语言模型是chat gpt模型。可选的,该大语言模型是gpt-4模型。
163.步骤840:响应于用于与虚拟人进行互动的互动操作,获取第一文本内容;
164.在一些实施例中,响应于用户用于与虚拟人进行互动的互动操作,获取第一文本内容。该互动操作包括单击、双击、左右滑动、上下滑动、长按、悬停、面部识别、语音识别中的至少一种。值得说明的是,该互动操作包括但不限于上述提及几种,本领域内的技术人员应该能够知晓,任意能够实现上述功能的操作均属于本技术实施例的保护范围。
165.步骤860:播放虚拟人讲述的第二语音内容。
166.在一些实施例中,播放由虚拟人讲述的第二语音内容。在一些实施例中,响应于针对播放控件的触发操作,播放由虚拟人讲述的第二语音内容。该触发操作包括单击、双击、左右滑动、上下滑动、长按、悬停、面部识别、语音识别中的至少一种。值得说明的是,该触发
操作包括但不限于上述提及几种,本领域内的技术人员应该能够知晓,任意能够实现上述功能的操作均属于本技术实施例的保护范围。示例性的,如图11所示,在互动界面12上包括播放控件13,该播放控件13用于控制播放第二语音内容,响应于针对播放控件13的触发操作,播放由虚拟人11讲述的第二语音内容。
167.在一些实施例中,播放虚拟人讲述的具有目标人的语音特征的第二语音内容,该语音特征包括音色特征、情感特征、韵律特征中的至少一种。该第二语音内容是基于虚拟人语音模型对第一语音内容进行推理得到的,该虚拟人语音模型用于实现将具有通用语音特征的语音内容,推理为具有目标人的语音特征的语音内容。也即,第二语音内容包括目标人的语音特征。在一些实施例中,该目标人的语音特征包括音色特征、情感特征、韵律特征中的至少一种。
168.在一些实施例中,第一语音内容是基于文本转语音模型对第二文本内容转换得到的。在一些实施例中,第一语音内容是与第二文本内容对应的语音信息。示例性的,第二文本内容为“我很好”,则第一语音内容对应为“我很好”的语音内容。
169.综上所述,本技术实施例提供的方法,通过显示包括虚拟人的互动界面,播放由虚拟人讲述的第二语音内容,实现播放具有目标人的语音特征的语音内容,避免播放具有大众化音色的语音内容。
170.图13是本技术一个示例性实施例提供的针对虚拟人的语音合成方法的流程图。该方法还包括如下子步骤:
171.步骤920:播放包括虚拟人的肢体动作的互动视频。
172.在一些实施例中,播放包括虚拟人的肢体动作的互动视频,虚拟人的肢体动作与第二语音内容中的语气词对应,虚拟人的肢体动作从肢体动作库中获取,肢体动作库是基于含目标人的样本视频片段构建得到的。
173.在一些实施例中,该包括虚拟人的肢体动作的互动视频是视频流,该视频流是预先生成的。在一些实施例中,该包括虚拟人的肢体动作的互动视频是视频帧,基于该视频帧生成包括虚拟人的肢体动作的互动视频。
174.在一些实施例中,从含目标人的样本视频片段中提取至少一个目标肢体动作。该目标肢体动作是目标人的肢体动作。在一些实施例中,该目标肢体动作是基于目标人的骨骼点确定的,该骨骼点用于指示肢体动作变化。基于目标人的至少一个骨骼点的变化,确定目标人的骨骼点变化序列。基于骨骼点变化序列,确定目标人的肢体动作。
175.在一些实施例中,该目标肢体动作与至少一个语气词对应。该目标肢体动作是目标人在样本视频片段中与语气词对应的肢体动作。在一些实施例中,该目标肢体动作与语气词是一一对应的,如语气词“呢”对应第一目标肢体动作,语气词“吗”对应第二目标肢体动作。在一些实施例中,该目标肢体动作与语气词不是一一对应的,如语气词“呢”和语气词“吗”均对应第三目标肢体动作。
176.在一些实施例中,在样本视频片段中包括m个语气词和与m个语气词对应的目标肢体动作的情况下,构建目标人的肢体动作库。该目标人的肢体动作库中包括至少一个目标肢体动作和与至少一个目标肢体动作对应的语气词。在一些实施例中,虚拟人的肢体动作是基于虚拟人的骨骼点确定的。可选的,虚拟人的骨骼点与目标人的骨骼点是一致的,如虚拟人包括t个骨骼点,目标人也包括t个骨骼点,虚拟人的t个骨骼点的位置比例与目标人的
t个骨骼点的位置比例是一致的。可选的,虚拟人的骨骼点与目标人的骨骼点是不一致的,包括虚拟人的骨骼点数量和目标人的骨骼点数量不一致,和/或虚拟人的骨骼点的位置比例和目标人的骨骼点的位置比例是不一致的。
177.在一些实施例中,通过将目标人的骨骼点变化映射到虚拟人的骨骼点变化中,实现生成虚拟人的肢体动作。在一些实施例中,通过对肢体动作库中的目标肢体动作进行查找或检索,找到与第二语音内容中的语气词对应的目标肢体动作,将该目标肢体动作对应的目标人的骨骼点变化序列映射到虚拟人的骨骼点变化序列中,生成与第二语音内容中的语气词对应的虚拟人的肢体动作。
178.综上所述,本技术实施例提供的方法,通过播放包括虚拟人的肢体动作的互动视频,使在利用虚拟人进行互动时更具趣味性。
179.图14是本技术一个示例性实施例提供的针对虚拟人的语音合成方法的流程图。该方法还包括如下子步骤:
180.步骤940:播放包括虚拟人的表情的互动视频。
181.在一些实施例中,播放包括虚拟人的表情的互动视频,虚拟人的表情与第二语音内容中的语气词对应,虚拟人的表情从表情库中获取,表情库是基于含目标人的样本视频片段构建得到的。
182.在一些实施例中,该包括虚拟人的表情的互动视频是视频流,该视频流是预先生成的。在一些实施例中,该包括虚拟人的表情的互动视频是视频帧,基于该视频帧生成包括虚拟人的表情的互动视频。
183.在一些实施例中,从含目标人的样本视频片段中提取至少一个目标表情。该目标表情是目标人的表情。在一些实施例中,该目标人的表情是基于目标人的面部关键点确定的,该面部关键点用于指示面部表情变化。基于目标人的至少一个面部关键点,确定目标人的面部关键点的变化序列。基于面部关键点的变化序列,确定目标人的面部表情。
184.在一些实施例中,该目标表情与至少一个语气词对应。该目标表情是目标人在样本视频片段中与语气词对应的表情。在一些实施例中,该目标表情与语气词是一一对应的,如语气词“呢”对应第一目标表情,语气词“吗”对应第二目标表情。在一些实施例中,该目标表情与语气词不是一一对应的,如语气词“呢”和语气词“吗”均对应第三目标表情。
185.在一些实施例中,在样本视频片段中包括m个语气词和与m个语气词对应的目标表情的情况下,构建目标人的表情库。该目标人的表情库中包括至少一个目标表情和与至少一个目标表情对应的语气词。
186.在一些实施例中,虚拟人的表情是基于虚拟人的面部关键点确定的。可选的,虚拟人的面部关键点与目标人的面部关键点是一致的,如虚拟人包括y个面部关键点,目标人也包括y个面部关键点,虚拟人的y个面部关键点的位置比例与目标人的y个面部关键点的位置比例是一致的。可选的,虚拟人的面部关键点与目标人的面部关键点是不一致的,包括虚拟人的面部关键点数量和目标人的面部关键点数量不一致,和/或虚拟人的面部关键点的位置比例和目标人的面部关键点的位置比例是不一致的。
187.在一些实施例中,通过将目标人的面部关键点变化映射到虚拟人的面部关键点变化中,实现生成虚拟人的表情。在一些实施例中,通过对表情库中的目标表情进行查找或检索,找到与第二语音内容中的语气词对应的目标表情,将该目标表情对应的目标人的面部
关键点变化序列映射到虚拟人的面部关键点变化序列中,生成与第二语音内容中的语气词对应的虚拟人的表情。
188.综上所述,本技术实施例提供的方法,通过播放包括虚拟人的表情的互动视频,使在利用虚拟人进行互动时更具趣味性。
189.图15是本技术一个示例性实施例提供的针对虚拟人的语音合成方法的流程图。该方法还包括如下子步骤:
190.步骤1000:响应于用于创建虚拟人的触发操作,显示与社交应用程序中的用户账号对应的虚拟人。
191.在一些实施例中,响应于用于创建虚拟人的触发操作,显示与社交应用程序中的用户账号对应的虚拟人。该触发操作包括单击、双击、左右滑动、上下滑动、长按、悬停、面部识别、语音识别中的至少一种。值得说明的是,该触发操作包括但不限于上述提及几种,本领域内的技术人员应该能够知晓,任意能够实现上述功能的操作均属于本技术实施例的保护范围。
192.在一些实施例中,该虚拟人是基于用户账号对应的真实人信息创建的,该真实人信息包括真实人的样貌特征、姿态特征、身材比例中的至少一种。在一些实施例中,用户账号对应的虚拟人包括虚拟人信息。该虚拟人信息与用户账号对应的真实人信息是一致的,如用户账号对应的真实人信息包括z个信息参数,虚拟人信息中也包括z个信息参数,且用户账号对应的真实人信息中的z个信息参数和虚拟人信息中的z个信息参数是一一对应的。则通过z个一一对应的信息参数,生成与用户账号对应的虚拟人,该虚拟人具有和用户账号对应的真实人信息一致的虚拟人信息。
193.在一些实施例中,该虚拟人与虚拟人语音模型绑定,虚拟人语音模型是基于样本语音片段训练得到的。在一些实施例中,用户账号对应的真实人信息和样本语音片段是从用户账号发布的自拍视频中获取的。在一些实施例中,该样本语音片段是从用户账号发布的自拍视频中截取得到的。在一些实施例中,该样本语音片段是基于用户账号发布的自拍视频拼接得到的。
194.综上所述,本技术实施例提供的方法,通过响应于用于创建虚拟人的触发操作,显示与社交应用程序中的用户账号对应的虚拟人,使用户能够根据自己的需求和想法生成具有个人特色的虚拟人和由虚拟人讲述的第二语音内容,在一定程度上能够帮助提高用户与虚拟人进行互动的积极性。
195.图16是本技术一个示例性实施例提供的针对虚拟人的语音合成方法的流程图。该方法由图1所示的计算机系统100中的终端120和服务器140协同执行,包括:
196.步骤1:终端接收用于创建虚拟人的触发操作;
197.在一些实施例中,终端接收用于创建虚拟人的触发操作。该触发操作包括单击、双击、左右滑动、上下滑动、长按、悬停、面部识别、语音识别中的至少一种。值得说明的是,该触发操作包括但不限于上述提及几种,本领域内的技术人员应该能够知晓,任意能够实现上述功能的操作均属于本技术实施例的保护范围。
198.步骤2:终端响应于触发操作,向服务器发送虚拟人的创建请求;
199.在一些实施例中,终端响应于用于创建虚拟人的触发操作,向服务器发送虚拟人的创建请求。该创建请求包括基于用户账号对应的真实人信息创建虚拟人的请求。在一些
实施例中,该真实人信息包括真实人的样貌特征、姿态特征、身材比例中的至少一种。
200.步骤3:服务器接收终端发送的虚拟人创建请求;
201.在一些实施例中,服务器接收终端发送的虚拟人创建请求,包括接收基于用户账号对应的真实人信息创建虚拟人的请求。
202.步骤4:服务器获取用户账号对应的真实人信息;
203.在一些实施例中,收集或获取由用户账号发布的自拍视频,该自拍视频的数量不限。在一些实施例中,该用户账号发布自拍视频的社交应用程序与支持创建虚拟人的社交应用程序是同一个社交应用程序。在一些实施例中,该用户账号发布自拍视频的社交应用程序与支持创建虚拟人的社交应用程序是不同的社交应用程序。可选的,用户账号发布自拍视频的社交应用程序为a社交应用程序,支持创建虚拟人的社交应用程序为b社交应用程序,a社交应用程序上登录的用户账号和b社交应用程序上登录的用户账号是同一个用户账号。
204.在一些实施例中,从用户账号发布的自拍视频中获取用户账号对应的真实人信息。该真实人信息包括真实人的样貌特征、姿态特征、身材比例中的至少一种。
205.步骤5:服务器生成虚拟人;
206.在一些实施例中,服务器基于用户账号对应的真实人信息,生成与用户帐号对应的虚拟人。在一些实施例中,用户账号对应的真实人信息包括真实人的样貌特征、姿态特征、身材比例中的至少一种。
207.步骤6:终端显示包括虚拟人的互动界面;
208.在一些实施例中,在终端的应用程序的界面上显示包括虚拟人的互动界面。该互动界面用于虚拟人和用户进行互动。示例性的,如图11所示,在娱乐类应用程序的界面上显示包括虚拟人11的互动界面12。示例性的,如图12所示,在直播类应用程序的界面上显示包括虚拟人11的互动界面12。
209.在一些实施例中,互动界面中包括至少一个用于显示文本的文本框,在至少一个文本框中显示文本内容,该文本内容包括第一文本内容和第二文本内容。示例性的,如图11所示,在互动界面12中包括第一文本框14、第二文本框15和第三文本框16。其中,第一文本框14用于显示第一文本内容,第二文本框15用于显示第二文本内容,第三文本框16用于提供给用户输入与虚拟人11进行互动的互动内容。
210.步骤7:服务器获取目标人的样本语音片段;
211.在一些实施例中,从用户账号发布的自拍视频中获取样本语音片段,该样本语音片段用于训练虚拟人语音模型。在一些实施例中,该样本语音片段是从用户账号发布的自拍视频中截取得到的。在一些实施例中,该样本语音片段是基于用户账号发布的自拍视频拼接得到的。
212.在一些实施例中,该样本语音片段是从已有的语音片段中截取得到的。示例性的,从某新闻媒体的采访片段中截取得到某公众人物的采访语音,某公众人物即为目标人。在一些实施例中,该样本语音片段是由目标人录制得到的录制音频。在一些实施例中,该样本语音片段中的字词数量小于文本转语音模型中的字词数量。
213.步骤8:服务器基于样本语音片段,对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型;
214.在一些实施例中,基于具有目标人的语音特征的样本语音片段,对虚拟人语音模型进行训练,使训练好的虚拟人语音模型能够将具有通用语音特征的语音内容推理为具有目标人的语音特征的语音内容。
215.步骤9:终端接收用于与虚拟人进行互动的互动操作;
216.在一些实施例中,终端接收用于与虚拟人进行互动的互动操作。该互动操作包括单击、双击、左右滑动、上下滑动、长按、悬停、面部识别、语音识别中的至少一种。值得说明的是,该互动操作包括但不限于上述提及几种,本领域内的技术人员应该能够知晓,任意能够实现上述功能的操作均属于本技术实施例的保护范围。
217.步骤10:终端响应于互动操作,向服务器发送互动请求;
218.在一些实施例中,终端响应于用户用于与虚拟人进行互动的互动操作,向服务器发送互动请求。该互动请求包括获取第一文本内容的请求、获取第二文本内容的请求、获取第一语音内容的请求、获取第二语音内容的请求、获取包括虚拟人的肢体动作的互动视频的请求和获取包括虚拟人的表情的互动视频的请求中的至少一种。
219.步骤11:服务器接收终端发送的互动请求;
220.在一些实施例中,服务器接收终端发送的互动请求,包括接收获取第一文本内容的请求、获取第二文本内容的请求、获取第一语音内容的请求、获取第二语音内容的请求、获取包括虚拟人的肢体动作的互动视频的请求和获取包括虚拟人的表情的互动视频的请求中的至少一种。
221.步骤12:服务器获取第一文本内容;
222.该第一文本内容包括与虚拟人进行互动的文本信息。在一些实施例中,该第一文本内容是基于用户输入的输入内容获得的。可选的,该第一文本内容包括用户输入的文本内容。示例性的,用户输入的文本内容为“你好吗”,则“你好吗”即作为第一文本内容。可选的,该第一文本内容包括基于用户输入的语音内容获得的。示例性的,用户输入语音内容,基于语音识别模型,对用户输入的语音内容进行识别,得到第一文本内容。
223.步骤13:服务器将第一文本内容输入大语言模型,得到第二文本内容;
224.服务器将第一文本内容输入大语言模型,该大语言模型用于对第一文本内容进行自然语言回复处理,得到经过自然语言回复处理过的第二文本内容。示例性的,在第一文本内容为“你好吗”的情况下,将“你好吗”输入大语言模型,得到第二文本内容为“我很好”。可选的,该大语言模型是chat gpt模型。可选的,该大语言模型是gpt-4模型。
225.步骤14:服务器基于文本转语音模型,将第二文本内容转换为第一语音内容;
226.服务器基于能够将文本内容转换为语音内容的文本转语音模型,将第二文本内容输入文本转语音模型,输出转换后的第一语音内容。在一些实施例中,第一语音内容是与第二文本内容对应的语音信息。示例性的,第二文本内容为“我很好”,则第一语音内容对应为“我很好”的语音内容。
227.步骤15:服务器基于虚拟人语音模型对第一语音内容进行推理,得到第二语音内容;
228.服务器将第一语音内容输入虚拟人语音模型进行推理,得到第二语音内容。该虚拟人语音模型用于实现将具有通用语音特征的语音内容,推理为具有目标人的语音特征的语音内容。也即,第二语音内容包括目标人的语音特征。在一些实施例中,该目标人的语音
特征包括音色特征、情感特征、韵律特征中的至少一种。
229.步骤16:终端播放虚拟人讲述的第二语音内容;
230.在一些实施例中,终端播放由虚拟人讲述的第二语音内容。在一些实施例中,响应于针对播放控件的触发操作,播放由虚拟人讲述的第二语音内容。该触发操作包括单击、双击、左右滑动、上下滑动、长按、悬停、面部识别、语音识别中的至少一种。值得说明的是,该触发操作包括但不限于上述提及几种,本领域内的技术人员应该能够知晓,任意能够实现上述功能的操作均属于本技术实施例的保护范围。示例性的,如图11所示,在互动界面12上包括播放控件13,该播放控件13用于控制播放第二语音内容,响应于针对播放控件13的触发操作,播放由虚拟人11讲述的第二语音内容。在一些实施例中,播放虚拟人讲述的具有目标人的语音特征的第二语音内容。
231.步骤17:服务器构建目标人的肢体动作库;
232.在一些实施例中,目标人的样本语音片段是从含目标人的样本视频片段中获取得到的。服务器从含目标人的样本视频片段中提取至少一个目标肢体动作。该目标肢体动作是目标人的肢体动作。在一些实施例中,该目标肢体动作是基于目标人的骨骼点确定的,该骨骼点用于指示肢体动作变化。基于目标人的至少一个骨骼点的变化,确定目标人的骨骼点变化序列。基于骨骼点变化序列,确定目标人的肢体动作。
233.在一些实施例中,该目标肢体动作与至少一个语气词对应。该目标肢体动作是目标人在样本视频片段中与语气词对应的肢体动作。在一些实施例中,该目标肢体动作与语气词是一一对应的,如语气词“呢”对应第一目标肢体动作,语气词“吗”对应第二目标肢体动作。在一些实施例中,该目标肢体动作与语气词不是一一对应的,如语气词“呢”和语气词“吗”均对应第三目标肢体动作。
234.在样本视频片段中包括m个语气词和与m个语气词对应的目标肢体动作的情况下,构建目标人的肢体动作库。该目标人的肢体动作库中包括至少一个目标肢体动作和与至少一个目标肢体动作对应的语气词。
235.步骤18:服务器基于肢体动作库,生成与第二语音内容中的语气词对应的虚拟人的肢体动作;
236.服务器基于包含至少一个目标肢体动作和与至少一个目标肢体动作对应的语气词的肢体动作库,生成与第二语音内容中的语气词对应的虚拟人的肢体动作。
237.在一些实施例中,虚拟人的肢体动作是基于虚拟人的骨骼点确定的。可选的,虚拟人的骨骼点与目标人的骨骼点是一致的,如虚拟人包括t个骨骼点,目标人也包括t个骨骼点,虚拟人的t个骨骼点的位置比例与目标人的t个骨骼点的位置比例是一致的。可选的,虚拟人的骨骼点与目标人的骨骼点是不一致的,包括虚拟人的骨骼点数量和目标人的骨骼点数量不一致,和/或虚拟人的骨骼点的位置比例和目标人的骨骼点的位置比例是不一致的。
238.在一些实施例中,通过将目标人的骨骼点变化映射到虚拟人的骨骼点变化中,实现生成虚拟人的肢体动作。在一些实施例中,通过对肢体动作库中的目标肢体动作进行查找或检索,找到与第二语音内容中的语气词对应的目标肢体动作,将该目标肢体动作对应的目标人的骨骼点变化序列映射到虚拟人的骨骼点变化序列中,生成与第二语音内容中的语气词对应的虚拟人的肢体动作。
239.步骤19:终端播放包括虚拟人的肢体动作的互动视频;
240.在一些实施例中,播放包括虚拟人的肢体动作的互动视频,虚拟人的肢体动作与第二语音内容中的语气词对应,虚拟人的肢体动作从肢体动作库中获取,肢体动作库是基于含目标人的样本视频片段构建得到的。在一些实施例中,该包括虚拟人的肢体动作的互动视频是视频流,该视频流是预先生成的。在一些实施例中,该包括虚拟人的肢体动作的互动视频是视频帧,基于该视频帧生成包括虚拟人的肢体动作的互动视频。
241.步骤20:服务器构建目标人的表情库;
242.在一些实施例中,目标人的样本语音片段是从含目标人的样本视频片段中获取得到的。服务器从含目标人的样本视频片段中提取至少一个目标表情。该目标表情是目标人的表情。在一些实施例中,该目标人的表情是基于目标人的面部关键点确定的,该面部关键点用于指示面部表情变化。基于目标人的至少一个面部关键点,确定目标人的面部关键点的变化序列。基于面部关键点的变化序列,确定目标人的面部表情。
243.在一些实施例中,该目标表情与至少一个语气词对应。该目标表情是目标人在样本视频片段中与语气词对应的表情。在一些实施例中,该目标表情与语气词是一一对应的,如语气词“呢”对应第一目标表情,语气词“吗”对应第二目标表情。在一些实施例中,该目标表情与语气词不是一一对应的,如语气词“呢”和语气词“吗”均对应第三目标表情。
244.在样本视频片段中包括m个语气词和与m个语气词对应的目标表情的情况下,构建目标人的表情库。该目标人的表情库中包括至少一个目标表情和与至少一个目标表情对应的语气词。
245.步骤21:服务器基于表情库,生成与第二语音内容中的语气词对应的虚拟人的表情;
246.服务器基于包含至少一个目标表情和与至少一个目标表情对应的语气词的表情库,生成与第二语音内容中的语气词对应的虚拟人的表情。
247.在一些实施例中,虚拟人的表情是基于虚拟人的面部关键点确定的。可选的,虚拟人的面部关键点与目标人的面部关键点是一致的,如虚拟人包括y个面部关键点,目标人也包括y个面部关键点,虚拟人的y个面部关键点的位置比例与目标人的y个面部关键点的位置比例是一致的。可选的,虚拟人的面部关键点与目标人的面部关键点是不一致的,包括虚拟人的面部关键点数量和目标人的面部关键点数量不一致,和/或虚拟人的面部关键点的位置比例和目标人的面部关键点的位置比例是不一致的。
248.在一些实施例中,通过将目标人的面部关键点变化映射到虚拟人的面部关键点变化中,实现生成虚拟人的表情。在一些实施例中,通过对表情库中的目标表情进行查找或检索,找到与第二语音内容中的语气词对应的目标表情,将该目标表情对应的目标人的面部关键点变化序列映射到虚拟人的面部关键点变化序列中,生成与第二语音内容中的语气词对应的虚拟人的表情。
249.步骤22:终端播放包括虚拟人的表情的互动视频。
250.在一些实施例中,播放包括虚拟人的表情的互动视频,虚拟人的表情与第二语音内容中的语气词对应,虚拟人的表情从表情库中获取,表情库是基于含目标人的样本视频片段构建得到的。在一些实施例中,该包括虚拟人的表情的互动视频是视频流,该视频流是预先生成的。在一些实施例中,该包括虚拟人的表情的互动视频是视频帧,基于该视频帧生成包括虚拟人的表情的互动视频。
251.综上所述,本实施例提供的方法,能够生成具有目标人的语音特征的第二语音内容,通过避免生成大众化的语音内容,使虚拟人语音更具特色。另外,通过生成与第二语音内容对应的虚拟人的肢体动作和/或表情,在一定程度上能够帮助提高用户与虚拟人进行互动的积极性。
252.在一些实施例中,本技术实施例提供的针对虚拟人的语音合成方法,通过使用大语言模型生成回答,通过中间层文本转语音模型的置换并加以自主训练的虚拟人语音模型赋予虚拟人特定音色,解决了相关技术中语音回答多为营销号声音、定制声线昂贵、定制用时长或者自训练文本转语音模型发音生硬、字库较少而无法处理多音字生僻字等问题。本技术实施例提供的针对虚拟人的语音合成方法成本低廉,训练和推理时间非常快。
253.本技术实施例提供的针对虚拟人的语音合成方法,通过使用目标人的样本语音片段,并通过虚拟人语音模型,可以定制虚拟人的声音让其更匹配虚拟人的人设,避免了泛用的营销号声线,或者避免与别的虚拟人“撞音”。
254.本技术实施例提供的针对虚拟人的语音合成方法,使用文本转语音模型作为情绪处理、语气、气息停顿的中间层,然后再使用虚拟人语音模型进行音色迁移,实现二次音色赋予,可以使得语音更加自然、流畅,而文本转语音模型作为中间层也能有效解决字库过少以及处理多音字、人名、生僻字等问题。
255.本技术实施例提供的针对虚拟人的语音合成方法的成本较为可控,可以使用免费的文本转语音模型作为中间层,而对虚拟人语音模型的训练也可以只需要较少的样本语音片段即可得到较高的拟真度,可以同时在实现成本和语音拟真度等方面取得较好的平衡。
256.本技术实施例提供的针对虚拟人的语音合成方法可以适用于与任何虚拟人的交互场景,如聊天框对话,虚拟人直播等等。用户输入问题或需求,系统进行语音识别和自然语言处理,把文本发送给大语言模型。系统基于大语言模型生成相应的文字回复,把该文字回复作为参数生成相应的语音回答,语音回答与文字回复一致,具有目标人的语气、情感和语调。系统将语音回答、文字回复和虚拟人的表情动作展示在用户界面上,用户可以通过观看、听取和阅读回答内容,进一步理解和满足自己的需求。
257.在一些实施例中,如图17所示,本技术实施例提供的针对虚拟人的语音合成方法的步骤包括:
258.步骤1110:训练虚拟人语音模型;
259.1)使用麦克风和录音设备让目标人录制一定长度的语音,时间长度为十几分钟到一两个小时。录制的声音不做效果处理。在包括背景音乐或者其他混响效果的情况下,将背景音乐或者其他混响效果进行去除。
260.2)对录制的目标人的语音进行二次细化处理,对换气声等做静音或剪切处理。本步骤能够提升训练好的语音模型的自然度,防止对训练数据集进行过多污染,减少机械感。
261.3)对录制的目标人的语音进行切割处理,根据时长和断句进行剪切,维持每小段音频长度为最小八秒最长三十秒左右最佳,防止训练的中期因为语音素材过长导致设备所需的显存溢出而导致的训练失败。
262.4)使用resample脚本转换所有数据集采样为44100hz。
263.5)使用preprocess_flist_config.py脚本与preprocess_hubert_f0.py脚本自动划分数据集为训练集、验证集与测试集并自动生成训练和推理用的相应配置文件。
264.6)使用train脚本训练得到虚拟人语音模型。
265.步骤1120:获取用户的输入文本;
266.在一些实施例中,通过用户输入的文本框获取用户的输入文本。在一些实施例中,通过捕捉直播场景下的用户弹幕作为用户的输入文本。
267.步骤1130:基于大语言模型生成文本回复;
268.在一些实施例中,把用户的输入文本作为参数,传给大语言模型,由大语言模型根据用户的输入文本自动生成相应回复。
269.步骤1140:基于文本转语音模型生成初步语音回复;
270.在一些实施例中,把大语言模型生成的虚拟人文本回复作为参数传给文本转语音模型,通过文本转语音模型自动分析该回复的情感、语气、断句或停顿,生成初步的语音回复。
271.步骤1150:基于虚拟人语音模型生成最终的语音回复;
272.在一些实施例中,使用文本转语音模型生成的初步语音回复作为语音输入,通过已经训练好的虚拟人语音模型进行二次推理,生成最终的语音回复。
273.步骤1160:将最终的语音回复反馈给用户。
274.在一些实施例中,将最终的语音回复反馈给用户,向观众展示相应的文本回复与语音回复,配上相应的表情与动作完成用户与虚拟人之间的交互。
275.本技术实施例提供的针对虚拟人的语音合成方法,通过使用目标人的语音素材训练虚拟人语音模型,可以实现虚拟人声音的个性化定制,避免了使用预设声音的缺点,让虚拟人的声音更符合期待的人设,提高了用户的体验感和认同感。
276.本技术实施例提供的针对虚拟人的语音合成方法,通过使用文本转语音模型作为情绪处理、语气、气息停顿的中间层,在缓冲处理后再使用虚拟人语音模型进行二次音色赋予,可以使语音更加自然和流畅,而文本转语音模型也能有效解决字库过少以及处理多音字、人名、生僻字等问题,提高了语音识别的准确率和鲁棒性。
277.本技术实施例提供的针对虚拟人的语音合成方法的成本相对较低,在实现成本控制和语音拟真度等方面取得较好的平衡,而且训练速度较快,提高了效率和可扩展性。
278.图18示出了本技术一个示例性实施例提供的针对虚拟人的语音合成装置的框图。该装置包括:
279.获取模块1810,用于获取第一文本内容,第一文本内容包括与虚拟人进行互动的文本信息。
280.处理模块1820,用于将第一文本内容输入大语言模型,得到第二文本内容,大语言模型用于对第一文本内容进行自然语言回复处理。
281.处理模块1820,还用于基于文本转语音模型,将第二文本内容转换为第一语音内容,第一语音内容是与第二文本内容对应的语音信息。
282.处理模块1820,还用于基于虚拟人语音模型对第一语音内容进行推理,得到第二语音内容,第二语音内容包括目标人的语音特征。
283.其中,虚拟人语音模型用于实现将具有通用语音特征的语音内容,推理为具有目标人的语音特征的语音内容,文本转语音模型在训练过程中使用的样本字词数量大于虚拟人语音模型在训练过程中使用的样本字词数量。
284.获取模块1810,还用于获取目标人的样本语音片段,样本语音片段中的字词数量小于文本转语音模型中的字词数量。
285.训练模块1830,用于基于样本语音片段,对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。
286.获取模块1810,还用于提取样本语音片段中的目标人的语音特征。
287.训练模块1830,还用于基于目标人的语音特征,对虚拟人语音模型进行训练,得到训练好的虚拟人语音模型。
288.获取模块1810,还用于提取样本语音片段中的语音特征,作为目标人的语音特征,语音特征包括音色特征、情感特征、韵律特征中的至少一种。
289.获取模块1810,还用于获取目标人的样本语音。
290.处理模块1820,还用于对样本语音中的目标声音信息进行静音或剪切处理,得到剪切样本,目标声音信息包括样本语音中的换气声、停顿、机械音中的至少一种。
291.处理模块1820,还用于根据时间长度阈值,对剪切样本进行分割处理,得到样本语音片段,时间长度阈值用于指示样本语音片段的时间长度。
292.在一些实施例中,目标人的样本语音片段是从含目标人的样本视频片段中获取得到的。
293.获取模块1810,还用于从样本视频片段中提取与至少一个语气词对应的目标肢体动作,目标肢体动作是目标人在样本视频片段中与语气词对应的肢体动作。
294.处理模块1820,还用于基于目标肢体动作,构建目标人的肢体动作库。
295.处理模块1820,还用于基于肢体动作库,生成与第二语音内容中的语气词对应的虚拟人的肢体动作。
296.在一些实施例中,目标人的样本语音片段是从含目标人的样本视频片段中获取得到的。
297.获取模块1810,还用于从样本视频片段中提取与至少一个语气词对应的目标表情,目标表情是目标人在样本视频片段中与语气词对应的表情。
298.处理模块1820,还用于基于目标表情,构建目标人的表情库。
299.处理模块1820,还用于基于表情库,生成与第二语音内容中的语气词对应的虚拟人的表情。
300.获取模块1810,还用于获取社交应用程序中的用户账号发送的虚拟人创建请求,虚拟人创建请求用于创建用户帐号对应的虚拟人。
301.获取模块1810,还用于从用户帐号发布的自拍视频中获取用户帐号对应的真实人信息和样本语音片段。
302.处理模块1820,还用于基于用户帐号对应的真实人信息,生成与用户帐号对应的虚拟人。
303.处理模块1820,还用于将基于样本语音片段训练得到的虚拟人语音模型,与虚拟人绑定。
304.图19示出了本技术一个示例性实施例提供的针对虚拟人的语音合成装置的框图。该装置包括:
305.显示模块1910,用于显示包括虚拟人的互动界面。
306.交互模块1920,用于响应于用于与虚拟人进行互动的互动操作,获取第一文本内容,第一文本内容包括与虚拟人进行互动的文本信息。
307.播放模块1930,用于播放虚拟人讲述的第二语音内容,第二语音内容是基于虚拟人语音模型对第一语音内容进行推理得到的,第一语音内容是基于文本转语音模型对第二文本内容转换得到的,第二文本内容是基于大语言模型对第一文本内容进行自然语言回复处理得到的。
308.其中,虚拟人语音模型用于实现将具有通用语音特征的语音内容,推理为具有目标人的语音特征的语音内容,文本转语音模型在训练过程中使用的样本字词数量大于虚拟人语音模型在训练过程中使用的样本字词数量。
309.播放模块1930,还用于播放虚拟人讲述的具有目标人的语音特征的第二语音内容,语音特征包括音色特征、情感特征、韵律特征中的至少一种。
310.播放模块1930,还用于播放包括虚拟人的肢体动作的互动视频,虚拟人的肢体动作与第二语音内容中的语气词对应,虚拟人的肢体动作从肢体动作库中获取,肢体动作库是基于含目标人的样本视频片段构建得到的。
311.播放模块1930,还用于播放包括虚拟人的表情的互动视频,虚拟人的表情与第二语音内容中的语气词对应,虚拟人的表情从表情库中获取,表情库是基于含目标人的样本视频片段构建得到的。
312.交互模块1920,还用于响应于用于创建虚拟人的触发操作,显示与社交应用程序中的用户账号对应的虚拟人。
313.其中,虚拟人是基于用户账号对应的真实人信息创建的,虚拟人与虚拟人语音模型绑定,虚拟人语音模型是基于样本语音片段训练得到的,用户账号对应的真实人信息和样本语音片段是从用户账号发布的自拍视频中获取的。
314.在一些实施例中,互动界面中包括至少一个用于显示文本的文本框。
315.显示模块1910,还用于在至少一个文本框中显示文本内容,文本内容包括第一文本内容和第二文本内容。
316.图20示出了本技术一个示例性实施例提供的计算机设备的结构示意图。示意性的,计算机设备2000包括中央处理单元(central processing unit,cpu)2001、包括随机存取存储器(random access memory,ram)2002和只读存储器(read-only memory,rom)2003的系统存储器2004,以及连接系统存储器2004和中央处理单元2001的系统总线2005。所述计算机设备2000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统2006,和用于存储操作系统2013、应用程序2014和其他程序模块2015的大容量存储设备2007。
317.所述基本输入/输出系统2006包括有用于显示信息的显示器2008和用于用户输入信息的诸如鼠标、键盘之类的输入设备2009。其中所述显示器2008和输入设备2009都通过连接到系统总线2005的输入/输出控制器2010连接到中央处理单元2001。所述基本输入/输出系统2006还可以包括输入/输出控制器2010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入/输出控制器2010还提供输出到显示屏、打印机或其他类型的输出设备。
318.所述大容量存储设备2007通过连接到系统总线2005的大容量存储控制器(未示
出)连接到中央处理单元2001。所述大容量存储设备2007及其相关联的计算机可读介质为计算机设备2000提供非易失性存储。也就是说,所述大容量存储设备2007可以包括诸如硬盘或者只读光盘(compact disc read-only memory,cd-rom)驱动器之类的计算机可读介质(未示出)。
319.所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读存储器(erasable programmable read-only memory,eprom)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、闪存或其他固态存储其技术,cd-rom、数字通用光盘(digital versatile disc,dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器2004和大容量存储设备2007可以统称为存储器。
320.根据本技术的各种实施例,所述计算机设备2000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备2000可以通过连接在所述系统总线2005上的网络接口单元2011连接到网络2012,或者说,也可以使用网络接口单元2011来连接到其他类型的网络或远程计算机系统(未示出)。
321.本技术一示例性实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一段程序,至少一段程序由处理器加载并执行以实现上述各个方法实施例提供的针对虚拟人的语音合成方法。
322.本技术一示例性实施例还提供了一种计算机程序产品,计算机程序产品包括至少一段程序,至少一段程序存储在可读存储介质中;通信设备的处理器从可读存储介质中读取信令,处理器执行信令,使得通信设备执行以实现上述各个方法实施例提供的针对虚拟人的语音合成方法。
323.应当理解的是,在本文中提及的“多个”是指两个或两个以上。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
324.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
325.以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同切换、改进等,均应包含在本技术的保护范围之内。
当前第1页1  
相关技术
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图