会议:2019 interspeech
单位:Greece, University of Crete
abstract
目的是基于非平行数据的many-to-many vc。基于博弈论(Game Theory) 的思想,把生成器的梯度乘一定的权重,使得生成器能够生成更加逼真的假样本以干扰判别器。
是StarGAN的一个变种,称为WeStarGAN-VC ,主观评测的语音质量和相似度分别提升75%和65%。
introduction
vc是一个回归问题,传统的方法比如多元线性回归,GMM,JD-GMM,缺点是依赖平行数据;近年来的非线性方法,RBM,DNN,其中seq2seq的转换取得比较大的成果,但是seq2seq依赖于大量的外部数据和ASR。
CVAE(conditional variational autoencoder)最近被提出用于vc,它是VAE的一个扩展,encoder和decoder可以添加额外的输入。GAN网络在vc上的成功应用使得GAN-VC是一个很好的前景。Cycle-GAN【19】用对抗loss和cycle consistent loss同时学习了前向和反向的frame-to-frame的映射。StarGAN【21】是针对one-to-one mapping的一个改进,提出一个统一的模型结构可以同时训练multi-domain。
StarGAN利用了先用的GAN的3项loss,它稳定性训练的缺乏可以通过WGAN的梯度惩罚克服(WGAN-GP)。我们对WGAN-GP提出一种新的有效的权重因子,给到能够欺骗判别器的样本对应的生成器更多的权重,同样减少不能欺骗判别器的生成器权重,目的是增强生成器的能力。在训练过程中,增强弱生成器的鲁棒性,有助于收敛。实验结果也表明比baseline StarGAN更好。
2. Generative Adversarial Networks
2.1 GAN原理
是要学习的目标分布
是噪声输入分布
2.2. StarGAN
声学特征序列所在的域:src—和tar—。tar 域标签c,随机生成的,以保证mang-to-many灵活的转换。引入辅助分类器,帮助判别器控制多个域。
loss函数有3项
Adversarial Loss:
生成器使得loss变小,判别器使loss变大,加惩罚项。
x^是真实样本和生成样本的均匀采样。
Domain Classification Loss:
生成器的目的是最小化这一项 ,不应该最大??有点疑惑。
Reconstruction Loss:
尽管对抗损失和域判别损失帮助生成器将语句从source domain转换到target domain,但是并不能保证文本信息被保存下来。
综上,损失函数可以写作
2.3. Training StarGAN with Weights(WeStarGAN)
【22】提出优化vanilla GANs性能的算法,不是对所有的样本权重求平均,而是对能够欺骗判别器的样本权重加大,减小对判别器认为是假的样本权重。这样和理论也是一致的,能够欺骗判别器的生成样本会和真实样本更接近,对于同样的判别器,用weighted 权重得到的生成器性能会比equalled 权重得到的更强大。
把这种算法用在WGAN的优化中,称为WGAN-GP,判别器不是返回样本是否为真的概率,而是返回一个连续的回归类型的值。
将判别器的输出归一到axis=0附近,生成器权重定义为:
其中,权重值的权重因子,经验值设为0.1
归一化的判别器被用于估计权重,判别器输出,权重指数减少,,相反。
3. experiment
3.1. Experimental conditions
用CMU的数据集,两男两女,分成无交叉的训练集和验证集。随机挑选以避免构成平行数据,36维的MCC,LF0(对数归一化), AP被提取,最后用WORLD合成语音。
用4维的one-hot向量表示4个target speaker
3.2 model architecture
4. Results and Discussion
本文提出的WeStarGAN和baseline-StarGAN做比较,测试了ABX, AB。结果是WeStarGAN更好一些,说明对生成器权重的调整是有效的。
作者进一步认为,可以使用更加轻量级的生成器,使得可以用在嵌入式器件上----因为生成器的能力增强,所以更加轻量级的网络不会造成明显的转换语音质量下降的问题。
来源:CSDN
作者:林林宋
链接:https://blog.csdn.net/qq_40168949/article/details/103621943