ON the study of generative adversarial network for corss-lingual voice conversion

落花浮王杯 提交于 2019-12-18 10:08:08

abstract

用Variational Autoencoding Wasserstein GAN (VAW-GAN) and cycle-consistent adversarial network (CycleGAN)实现跨语言的vc,保存了src的文本和tar的身份特征。不依赖语言的对齐,也不需要外部的ASR等。对两种语言的数据量要求都很少,而且性能和单语言的差不多。

introduction

GAN网络在图像的风格迁移上有成功的应用。VAW-GAN【28】,CycleGAN【29-31】, StarGAN【32】在vc上也有不错的效果。
之前在cross-lingual任务上的方法有codebook mapping 和 GMM,但是他们需要同一个人同时录制两种语言,这点在实际中很难做到。或者是找两种语言系统的音素或者声学聚类,从而摆脱对平行数据的依赖。
PPGs构建了source和target speaker之间的桥梁,但是它依赖于ASR系统的性能。还可以通过unit selection和迭代帧对齐的方法找到source和target frame pairs的对齐,但是因为不精确的对齐,性能也还有提升的空间。

 VAW-GAN用隐向量解释观察结果,而不是学到paired映射函数。CycleGAN用对抗loss和周期一致性loss同时学到前向和反向映射。因此可以学到最佳的伪对。

 作者任务的创新点:(1)GAN用于cross-lingual的vc;(2)用VAW-GAN 和 CycleGAN,但是不需要任何的外部处理或者对齐。(3)延伸比较:VAW-GAN 和 CycleGAN在单语种和跨语种的vc。

VAW-GAN

2.1 VC with VAE

VAE有一个encoder(音素识别器),一个decoder(合成器)。但是由于模型简单,合成器精度不高。模型假设是特征在各个维度高斯分布且不相关。这样的假设使得学习目标不完善,从而使得转换的语音不清晰。

【28】提出将GAN加到VAE的decoder中,GAN通常会生成更清晰的谱图,因为它以直接的方式优化两个分布之间的损失函数。【40】在图像生成中做了一个有趣的实验,把VAE的decoder作为GAN的generator。

2.2 Cross-lingual Voice Conversion with VAW-GAN
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!