读论文 《TransForm Mapping Using Shared Decision Tree Context Clustering for HMM-based Cross-Lingual Speech Synthesis》(1)

3. Cross-lingual speaker adaptation using STC with a bilingual corpus

  第一段

  1. 问题1,为什么要用双语语料库,双语语料库是同一个说话人的吗?
  2. cross-lingual speaker adaptation的开山鼻祖是Yijiang Wang的论文,而且也实现了代码,在HTS 2.2中。
  3. Yijiang Wang的做法是基于state mapping的,而本文作者的做法是基于STC,然后加上双语语料库
  4. 注意一点,本文作者与Yijian Wu都是做的cross-lingual的说话人自适应
  5. In the state mapping technique described in the previous section, the mismatch of language characteristics affects the mapping performance of transformation matrices because only the acoustic features are taken into account in the KLD-based mapping construction.
    1. 本文作者,居然说语言之间的mismatch(肯定,粤语和英语之间必然是有mismatch的,粤语是音节为基元,英语是以音素为基元),会影响mapping的性能
    2. 为什么mismatch of language就影响state mapping的性能了?还是不明白
    3. 哦,作者在这句话的后半部分给出了解释,因为在state mapping是基于KLD的,而在计算KLD时,只是考虑了声学特征。
    4. 是不是英语和粤语的声学特征是不同的??
    5. 技术分享
  6. To improve the mapping performance, we use not only acoustic features but also contextual factors when constructing the transform mapping. 
    1. 擦,上面我感觉作者说的还是有点问题,说上面那句话,主要是为了引出下面的这句话,
    2. 还是为了提高mapping的性能,作者说的是transform mapping的性能,其实就是state mapping的性能,我目前理解的是二者没有区别,
    3. 作者认为KLD的state  mapping仅仅考虑了声学特征,他提出一种方法,state mapping不仅考虑声学特征,还考虑上下文相关因素。
  7.  

      

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。