https://arxiv.org/abs/2012.03500
EfficientTTS: An Efficient and High-Quality Text-to-Speech Architecture (Chenfeng Miao, Shuang Liang, Zhencheng Liu, Minchuan Chen, Jun Ma, Shaojun Wang, Jing Xiao)
nonautoregressive tts. text & mel의 alignment matrix를 output sequence 내의 index로 매핑하고 monotonic alignment가 되도록 강제하는 방식의 bottleneck을 사용해서 학습. melgan을 달아서 wav까지 바로 출력한 결과도 보고. 비교적 단순한 방법으로 상당히 흥미로운 결과가 나온 듯.
#non-autoregressive #tts