一种基于深度生成对抗网络的文本生成视频系统-尊龙凯时官方app下载

文档序号:36403359发布日期:2023-12-16 08:49阅读:11来源:国知局
一种基于深度生成对抗网络的文本生成视频系统

1.本发明涉及人工智能技术领域,具体涉及一种基于深度生成对抗网络的文本生成视频系统



背景技术:

2.随着数字人概念的火爆

生成技术的不断发展,让照片里的人物跟随音频的输入动起来也不再是难题

受该技术启发,如果将该技术用于舆论领域,利用任意一段文本,通过提取特定“人物目标”的声纹特征与深度视觉特征,生成特定人物的演讲视频,达到对敌以假乱真

煽动人心的效果,在正面战场和敌后战场都有极强的军事意义

3.目前关于深度生成对抗网络
(gan)
的语音生成视频技术很少,下面介绍与

技术实现要素:
关系密切且文献发布最新的解决方法

4.目前已有的方法是基于多条件生成对抗网络的文本生成视频方法
(2022.10
,周瑞,计算机辅助设计与图形学报
)。
此文本生成视频方法包括三个模块,分别是文本处理模块

位姿建模与转换模块

视频帧生成与优化模块

文本处理模块将传统生成方法
(
检索与监督学习方法
)
与生成模型相结合建立动作检索数据库
,
提高生成过程的可控性;位姿建模与转换模块实现对位姿信息的提取及三维建模;视频帧生成与优化模块利用多条件生成对抗网络进行视频帧的合成与优化

其中文本处理模块中利用了动作检索数据库,用于存储语义信息所对应的动作序列,动作检索数据库是构建包含满足语义要求的行为动作的数据库

除了保证动作检索数据库的完善性之外,为了有效提高对动作的检索能力,采用总线型拓扑结构和树型拓扑结构相结合的检索方式

首先,依据树型拓扑结构将检索库中“人物块”、“时间块”、“状态块”、“动作块”进行分支检索,分别选择匹配度最高的动作参考模块

其次,通过总线型拓扑结构的检索方式结合每个树型拓扑结构上的分支中匹配度最高的检索方式,筛选出匹配值最高的动作块

5.位姿建模与转换模块可以更深层次地从源图像中提取图像特征,通过训练单个模型来表达所有对象的运动特征

同时,使用人体参数统计模型进行
3d
人像建模,使得生成视频中人物动作尽可能地满足人体结构学运动特征

6.位姿建模与转换模块包含两部分,第一部分为
3d
位姿建模,使用人体生成模型搭建了从
2d

3d
图像建模端到端的模型

通过
2d
图像信息,预测
3d
姿态和形状参数,可以较好地平衡生成图像精度与效率,进而生成更为丰富且运动更为真实的
3d
动作模型

参考图像和源图像通过残差网络编码,获得
2d
图像的卷积特征,将获得的卷积特征传递到迭代的
3d
回归模型中,以生成
3d
人像建模信息
(
姿势与形态
)
以及相机与
2d
关节的投影关系

相机视场角提供了一个衡量
3d
模型建模后人像与相机距离参数,以避免出现极大或者极小的
3d
人像模型

最后,利用可微的
3d
人体建模和
gan
结构,将生成模型的参数信息输入到判别模型中,以判断生成的
3d
模型是否满足正常人体行为活动
。smpl
是一种参数化的人体模型,数据化地表示人体的形状与姿势

同时,这种建模方法可以模拟人的肌肉在运动过程中的凸起和凹陷,避免人体肌肉在运动过程中出现表面失真的现象,精确地对人的肌肉拉伸以及收
缩运动的形态进行建模

通过这种方式,可创造出逼真的动画人体,不同的体型可以自然地随姿势变形,并表现出与真人类似的软组织运动

7.第二部分为位姿转换模块,使用可微的神经网络渲染模块,对其中获得的2个
3d
模型
(
参考图像
3d
模型
(3dref)
和源图像
3d
模型
(3dsrc)
进行映射,并通过其投影顶点计算变换矩阵通过变换矩阵
t
对源
3d
模型进行特定动作转换

在位姿转换过程中,生成模型采用的是变分自编码器

8.视频帧生成与优化模块本文采用了
resunet
结构,即残差神经网络
(residual networks

resnet)

cnn
组合,在判别模型中使用的是
pix2pix
中的判别模型框架结构

视频帧优化模块在传统的基础上去除了原网络中批量归一化
(bn

)
,通过生成模型与判别模型的相互对抗,获得图像空间的最优解,从而获得高分辨率视频帧

9.已有方法存在的不足是:在处理源图像时,存在生成目标人物的语音清晰度不高且会产生音画不同步,且视频画质不高等缺陷

发明内容
10.有鉴于此,本发明提供了一种基于深度生成对抗网络的文本生成视频系统,能够生成目标人物的清晰语音,并且解决了音画不同步问题,提高了合成视频的画质

11.为达到上述目的,本发明的技术方案为:包括语音生成模块和视频生成模块

12.语音生成模块以生成对象的参考语音信号以及文字部分作为输入,语音生成模块包括三个独立训练的神经网络,分别为:
13.扬声器编码器,从生成对象的参考语音信号中计算固定维度的嵌入向量

14.序列合成器,以生成对象的嵌入向量为条件,根据字素或者音素输入序列为条件来预测梅尔谱图

15.自回归
wavenet
声码器,用于将梅尔谱图转换为时域波形,最终生成语音特征,输入至视频生成模块

16.视频生成模块以生成对象的图片以及语音特征作为输入,视频生成模块包括
3d
人脸识别单元

表达单元

头部姿态单元以及
3d
面部渲染单元

17.3d
人脸识别单元用于根据生成对象的图片进行
3d
人脸识别,确定初始参考表达系数以及初始参考头部姿态系数

18.表达单元对生成对象的面部的运动系数进行计算,生成关联语音的表达系数

19.头部姿态单元对头部整体的运动系数进行计算,得到头部姿态系数

20.3d
面部渲染单元利用关联语音的表达系数

头部姿态系数对面部关键点进行映射,生成最终的视频

21.进一步地,扬声器编码器,扬声器编码器网络由神经网络训练而成,该网络从任意长度的参考语音信号中计算出
log-mel
的谱图序列,并将其映射到固定维度的嵌入向量中;扬声器编码器在训练过程中,训练样本包括分割成
1.6s
的语音视频实例和说话者身份标签;训练网络为
log-mel
谱图通过多个传输通道到达由多个单元组成的长短期记忆递归神经网络
lstm
,最终对输出进行归一化

22.进一步地,序列合成器包含编码器

合成器和解码器;序列合成器的输入在对文本转录目标音频上进行训练,在输入端,首先将文本映射成一系列音素,因素为最小语音单
位;一系列音素与参考语音经过预训练扬声器编码器的输出的编码向量进行合成,最后将合成的语音编码输入到解码器进行解码,最终生成与参考语音相同的合成
mel
声谱图

23.进一步地,表达单元包括音频编码器

映射网络
、wav2lip
模型以及
3dmm
系数估计器

24.音频编码器为残差神经网络
resnet
,音频编码器的输入为音频,输出为音频编码结果

25.映射网络为一个线性层,用来解码表达系数,映射网络的输入包括三个:第一个是音频经过音频编码器后输出的音频编码结果,第二个是来自参考图像的参考表达系数
β0,第三个是眨眼控制信号zblink
∈[0,1]
和相应的眼标损失;映射网络的输出为
t
帧的表达系数

[0026]
wav2lip
模型的输入为音频,音频通过
wav2lip
网络后得到初步的唇形表达系数,
wav2lip
模型的输出为初步唇形表达系数;初步唇形表达系数输入到
3dmm
系数估计器

[0027]
3dmm
系数估计器为一个单目三维人脸重建模型,用来学习真实的表达系数

[0028]
进一步地,头部姿态单元包括基于
vae
模型的
vae
编码器和
vae
解码器

[0029]
vae
模型中的
vae
编码器和
vae
解码器都是两层的
mlps。
[0030]
首先将第一帧的头部姿态
ρ0、
身份风格标识zstyle

音频
a{1,...,t}、
残差头部姿态

ρ
{1,...,t}

ρ
{1,...,t}-ρ0输入到
vae
编码器中进行编码,得到均值和方差,然后将该均值和方差映射为一个高斯分布,然后通过对该高斯分布进行采样来获得潜在向量,采样后的潜在向量再经过
vae
解码器,生成与原始数据分布相似的新数据

[0031]
最终得到一次迭代后的残差

ρ

{1,...,t}
,进而通过计算残差

ρ

{1,...,t}
补偿修正生成的运动姿态系数,返回
vae
编码器,经过多次迭代,直至

ρ

{1,...,t}
满足小于
0.1
的阈值,停止迭代,最终得到补偿修正后的真正头部运动姿态系数
ρ

[0032]
进一步地,
3d
面部渲染单元包括外观编码器

典型关键点提取单元
、3d
人脸识别单元

映射网络以及视频生成器

[0033]
给定原始图像,通过外观编码器和
3d
面部的典型关键点提取单元来生成初步的脸部系数,同时通过人脸识别单元确定图像的初始参考表达系数和初始头部姿态系数,将该系数以及语音信号输入到表达单元和头部姿态生成单元中生成最终视频的表达系数和头部姿态系数

[0034]
初始参考表达系数和初始头部姿态系数和生成的最终视频的表达系数和头部姿态系数分别输入到预训练的映射网路中,映射网络输出的
3d
面部关键点空间与外观编码器
、3d
面部的典型关键点的输出一起作为输入到视频生成器进行最终视频的生成

[0035]
映射网络为卷积神经网络,其输入为表达系数,头部姿态系数,输出为面部关键点,利用真实数据进行训练

[0036]
外观编码器包含生成对象静态图像面部外观相关的系数

[0037]
3d
面部的典型关键点提取模块所提取的典型关键点包括唇部

眼睛等关键部位的系数,这两个系数同
3d
人脸识别单元得到的参考面部关键点系数和与语音适配的实际面部关键点系数共同加权求和得到每帧的系数,最后直到计算完多帧系数后组成最终的视频

[0038]
有益效果:
[0039]1:本发明提供的一种基于深度生成对抗网络的文本生成视频系统,是一套文字生
成视频的系统

基于神经网络的独立扬声器编码器生成语音系统,学习说话者的说话习惯,进而生成高质量的说话语音

本发明采用独立扬声器编码器对参考语音进行训练,学习说话者的说话习惯,所以可以生成高质量的语音

通过采用独立训练的扬声器编码器网络嵌入说话者的说话习惯解决了生成目标人物语音清晰度不高的问题

通过设计表达单元和头部姿态单元计算
3d
运动系数实现了自然的头部运动和表情生动的问题,解决了音画不同步问题,提高了合成视频的画质

[0040]2:本发明引入
3d
运动系数对面部关键点进行表述,从而搭建了表达单元和头部姿态单元对
3d
运动系数进行计算,从而面部的表情和头部的姿态可以更加生动形象且自然

搭建基于表达单元和头部姿态单元的
3d
面部渲染模块,采用映射网络将
3d
运动系数和面部关键点联系起来,可以实现视频的最终生成

该系统能够生成目标人物的清晰语音,并且利用
wavlip

3dmm
组成的表达单元解决了音画不同步问题,提高了合成视频的画质

附图说明
[0041]
图1为本发明提供的基于深度生成对抗网络的文本生成视频系统组成框图;
[0042]
图2为序列合成器组成框图;
[0043]
图3为表达单元组成框图;
[0044]
图4为头部姿态单元组成框图;
[0045]
图5为
3d
面部渲染单元组成框图

具体实施方式
[0046]
下面结合附图并举实施例,对本发明进行详细描述

[0047]
本发明提供了一种基于深度生成对抗网络的文本生成视频系统,其组成如图1所示,统本发明的文字生成视频系统输入为一段
text
文字和一张生成对象的图片,输出为一段生成对象的演讲视频

[0048]
该系统的由两大部分组成,一部分为语音生成模块,另一部分为视频生成模块

[0049]
语音生成模块以生成对象的参考语音信号以及文字部分作为输入,语音生成模块包括三个独立训练的神经网络,分别为:
[0050]
扬声器编码器,从生成对象的参考语音信号中计算固定维度的嵌入向量

[0051]
序列合成器,以生成对象的嵌入向量为条件,根据字素或者音素输入序列为条件来预测梅尔谱图

[0052]
自回归
wavenet
声码器,用于将梅尔谱图转换为时域波形,最终生成语音特征,输入至视频生成模块

[0053]
视频生成模块以生成对象的图片以及语音特征作为输入,视频生成模块包括
3d
人脸识别单元

表达单元

头部姿态单元以及
3d
面部渲染单元

[0054]
3d
人脸识别单元用于根据生成对象的图片进行
3d
人脸识别,确定初始参考表达系数以及初始参考头部姿态系数

[0055]
表达单元对生成对象的面部的运动系数进行计算,生成关联语音的表达系数

[0056]
头部姿态单元对头部整体的运动系数进行计算,得到头部姿态系数

[0057]
3d
面部渲染单元利用关联语音的表达系数

头部姿态系数对面部关键点进行映
射,生成最终的视频

[0058]
整个系统的输入有两个:一是文字输入,即想要说的文字;二是图像输入,即生成对象的头部图像数据输入

输出有两个:一是中间输出,即生成的语音;二是生成的最终视频

[0059]
该系统的工作流程如下:
[0060]
第一,输入文字和图像

[0061]
第二,预训练的扬声器编码器根据给定的身份标签确定生成对象的参考语音,并输出编码向量到序列合成器中;在此同时,
3d
人脸识别对输入的图像进行识别,得到初始的参考表达系数和头部姿态系数,将此系数同时分别输入到表达模块

头部姿态模块以及
3d
面部渲染单元中

[0062]
第三,序列合成器将输入的文字和扬声器编码器输出的编码向量进行合成,最终输出
log-mel
声谱图,然后生成的声谱图输出到声码器

[0063]
第四,声码器将序列合成器网络输出的合成
log-mel
声谱图转换为时域波形,最终生成语音,然后将其输入到表达单元和头部姿态单元中

[0064]
第五,表达单元和头部姿态单元对语音和初始的参考表达系数和头部姿态系数进行训练,生成关联语音的表达系数和头部姿态系数,将生成的系数输入到
3d
面部渲染单元中

[0065]
第六,
3d
面部渲染单元根据初始参考表达系数

头部姿态系数以及关联语音的表达系数

头部姿态系数生成最终视频

[0066]
每个部分具体的实施方式如下:
[0067]
扬声器编码器
[0068]
扬声器编码器是一个相对独立的模块,其功能为从参考语音中捕捉对象的语音特性,它被用于根据来自期望目标扬声器
(
想要达到的语音效果
)
的参考语音信号来调节合成网络
(
序列合成器
)。
扬声器编码器网络由神经网络训练而成,该网络从任意长度的参考语音中计算出
log-mel(

10
为底的对数
)
的谱图序列,并将其映射到固定维度的嵌入向量中

此训练网络可以优化说话人的声音损失,使得生成的语音与同一人的原始语音具有高度相似性,而与不同人的语音具有很大差异

通过扬声器编码器计算的声音损失来直接调节序列合成器网络,进而优化最终生成的语音

[0069]
该模块的训练采用分割成
1.6s
的语音视频示例和说话者身份标签组成;训练网络为
log-mel
谱图通过多个传输通道到达由多个单元组成的
lstm(
长短期记忆递归神经网络
)
,最终对输出进行归一化
。(
可以不设置,也可以设置
)
该网络没有设置优化学习网络,因为它作为序列合成器的嵌入式模块,所以不设置优化迭代反馈

[0070]
序列合成器如图2所示

序列合成器由编码器

合成器

解码器组成

序列合成器在对文本转录目标音频上进行训练,在输入端,首先将文本映射成一系列音素
(
最小语音单位
)
,这可以更快地收敛,并且可以改善单词和专有名词的发音

然后将这些音素与参考语音经过预训练扬声器编码器的输出的编码向量进行合成,最后将合成的语音编码输入到解码器进行解码最终生成与参考语音相同且高质量的合成
mel
声谱图

[0071]
声码器
[0072]
声码器也是一个相对独立的模块,其使用逐样本自回归
wavenet
作为声码器,将序
列合成器网络输出的合成
mel
谱图转换为时域波形

该网络由约
30
个扩展的卷积层组成,且该网络的输出由扬声器编码器的输出以及序列合成器的输出有关

[0073]
表达单元
[0074]
表达模块如图3所示,音频
a{1,...,t}(
语音特征
)
生成通过训练网络生成了
t
帧的表达系数
β
{1,...,t}
,其中每一帧的音频特征是一个
0.2s

mel
声谱图,其中训练网络包括音频编码器和映射网络,音频编码器是基于基于
resnet(
残差神经网络,
resnet
的核心思想是通过残差连接来学习特征的变化,使得网络可以更容易地优化

这种结构的优势是可以训练更深的网络,而不会导致性能下降,是深度学习中的经典网络模型之一
)
的,映射网络是一个线性层,用来解码表达系数,映射网络的输入有三个,第一个是音频经过音频编码器后的输出,第二个是来自参考图像的参考表达系数
β0,该系数的作用是降低身份不确定性,第三个是眨眼控制信号zblink
∈[0,1]
和相应的眼标损失,目的是防止在训练中仅仅使用嘴唇系数导致最后效果的不真实性,产生可控的眨眼效果

[0075]
该训练网络可以用公式表示:
[0076]
β
{1,...,t}

m{a(a{1,...,t}),z
blink
,
β0}
ꢀꢀ
(1)
[0077]
输出为
β
{1,...,t}
,即
t
帧的表达系数
。m
为训练网络的,a为音频编码器

[0078]
第二路通过
wav2lip(
基于
gan
的唇形动作迁移算法,
wav2lip
模型实现了口型与输入语音同步
)
的预训练网络和深度三维重建
(
同步完成之后,进行唇形的三维重建生成视频
)
,仅将嘴唇运动系数作为系数目标,音频通过
wav2lip
网络后得到初步的唇形表达系数,初步唇形表达系数,为了使得生成的唇形表达系数更加准确,引入
3d
人脸识别输出的唇部图像的第一帧
i0作为目标表达式系数,因为它只包含唇相关的运动,减少了姿势变化和唇部运动以外的其他面部表达的影响,以它为目标进行训练可以使得唇部动作更加稳定流畅
[0079]
随后初步唇形表达系数输入到
3dmm(3d morphable model

3d
可变形模型
/
参数化模型
)
系数估计器
m1
中进行训练,
m1
是一个单目三维人脸重建模型,用来学习真实的表达系数
。m1
的输出为更加真实的表达系数,这里的系数被分为两部分,一部分是与唇部表达相关的系数
m1(wav2lip(i0,a{1,...,t}))
,另一部分为其他系数,令唇部表达相关的系数
m1(wav2lip(i0,a{1,...,t}))
与第一路训练网络的输出
β
{1,...,t}
进行对比作差,可以得到差异值
l
distill
,其他系数与第一路训练网络的输出
β
{1,...,t}
一起作为输入经过
m2
网络
(m2
网络是无学习参数的可微分三维人脸渲染网络
)
可以得到眼睛眨动的边界损失
l
lks
,可以来衡量眼睛眨动的范围和整体表达的准确性

令唇部表达相关的系数
m1(wav2lip(i0,a{1,...,t}))
与其他系数作为输入经过
m2
网络可以得到唇系数损失
l
read
,以保持感知性的唇质

[0080]
唇系数损失
l
read

m1(wav2lip(i0,a{1,...,t}))
相加获得真实唇部表达系数;表达单元的输出是
β
'{1,...,t} l
read
{1,...,t}。
[0081]
头部姿态单元
[0082]
头部姿态单元如图4所示,包括基于
vae(vae
是一种生成模型,它是
autoencoder
的变种
。vae
通过学习数据的潜在分布来生成新的样本
)
的编码器和解码器采样模块,目的是学习真实身份风格的头部运动,得到头部运动系数
ρ

[0083]
vae
编码器和解码器都是两层的
mlps(
多层感知器,通常指的是一种人工神经网络模型,它由多个神经元层组成,每个神经元层与其前后的层之间都有全连接
。mlps
常用于解
决分类和回归问题
)
,其中输入包含一个连续的
t
帧头姿态


vae
解码器中,该网络学习从采样分布中生成
t
帧姿态的残差

注意,此模块不是直接生成姿态,而是学习第一帧的头部条件姿态
ρ0的残差,所以此方法能够在第一帧的条件下生成更长

稳定

连续的头部运动

[0084]
首先将第一帧的头部姿态
ρ0、
身份风格标识zstyle

音频
a{1,...,t}、
残差头部姿态

ρ
{1,...,t}

ρ
{1,...,t}-ρ0输入到
vae
编码器中进行编码,得到均值和方差,然后将该均值和方差映射为一个高斯分布,即该高斯分布的均值和方差与前面的均值和方差相等,然后通过对该高斯分布进行采样来获得潜在向量,采样后的潜在向量再经过解码器,就可以生成与原始数据分布相似的新数据

[0085]
最终得到一次迭代后的残差

ρ

{1,...,t}
,进而通过计算残差

ρ

{1,...,t}
补偿修正生成的运动姿态系数并且掌握生成的真实性

稳定性,利用均值和方差获得一个
l
kl
散度用于测量所产生的头部运动的分布

经过多次迭代,直至

ρ

{1,...,t}
满足小于
0.1
的阈值,停止迭代,最终得到补偿修正后的真正头部运动姿态系数

[0086]
3d
面部渲染单元
[0087]
3d
面部渲染单元如图5所示,在生成前面比较逼真的运动系数后,通过设计一个
3d
面部渲染模块渲染最终的视频

[0088]
此模块由文献
(ting-chun wang,arun mallya,and ming-yu liu.one-shot free-view neural talking-head synthesis for video conferenc-ing.in cvpr,2021)
中获得灵感,因为它隐式地从单个图像中学习
3d
信息

在他们的方法中,使用真实的视频作为运动驱动信号

而我们设计的此模块使用
3d
运动系数驱动,我们提出了采用映射网络来学习
3d
运动系数与
3d
面部关键点之间的关系

映射网络通过几个一维的卷积层构建,使用来自时间窗口的时间系数进行平滑

[0089]
给定原始图像,通过外观编码器和典型关键点
(3d
面部的典型关键点
)
来生成初步的脸部系数,同时通过人脸识别确定图像的初始参考表达系数和头部姿态系数,将该系数以及语音信号输入到表达模块和头部姿态生成模块中生成最终视频的表达系数和头部姿态系数,将初始系数和生成的系数分别输入到预训练的映射网路中,映射网络输出的
3d
面部关键点空间与外观编码器

典型关键点的输出一起作为输入到视频生成器进行最终视频的生成

映射网络
(
卷积神经网络
)
输入为表达系数,头部姿态系数,输出为面部关键点,利用真实数据进行训练;
[0090]
外观编码器包含生成对象静态图像面部外观相关的系数,典型关键点包括唇部

眼睛等关键部位的系数,这两个系数同
3d
人脸识别得到的参考面部关键点系数和与语音适配的实际面部关键点系数共同加权求和得到每帧的系数,最后直到计算完多帧系数后组成最终的视频

[0091]
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围

凡在本发明的精神和原则之内,所作的任何修改

等同替换

改进等,均应包含在本发明的保护范围之内

当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图