Skip to content

Latest commit

 

History

History
executable file
·
41 lines (32 loc) · 2.36 KB

README.md

File metadata and controls

executable file
·
41 lines (32 loc) · 2.36 KB

Flowtron

Flowtron: Autoregresyjna sieć oparta na przepływie do syntezy tekstu na spektrogramy Mel

Rafael Valle, Kevin Shih, Ryan Prenger i Bryan Catanzaro

W naszej ostatnim artykule proponujemy Flowtron: autoregresyjną sieć generatywną opartą na przepływach do syntezy z kontrolą zmienności mowy i przeniesienia stylu. Flowtron czerpie z wiedzę o przepływach autoregresywnych i przekształca Tacotron w celu zapewnienia wysokiej jakości i ekspresyjnej syntezy mel-spektrogramów. Flowtron jest optymalizowany poprzez maksymalizację prawdopodobieństwa danych treningowych, co sprawia, że trening jest prosty i stabilny. Flowtron uczy się odwracalnego odwzorowania danych na przestrzeń ukrytą, którą można manipulować w celu kontrolowania wielu aspektów syntezy mowy (wysokość, ton, tempo mowy, kadencja, akcent).

Nasze średnie wyniki opinii (MOS) pokazują, że Flowtron dorównuje najnowocześniejszym modelom TTS pod względem jakości mowy. Ponadto przedstawiamy wyniki dotyczące kontroli zmienności mowy, interpolacji między próbkami i przenoszenia stylu między mówcami widzianymi i niewidzianymi podczas treningu.

Odwiedź naszą stronę, by posłuchać przykładowych próbek dźwiękowych.

Powiązane repozytoria

WaveGlow Szybsza niż w czasie rzeczywistym sieć generatywna oparta na przepływie do syntezy mowy

Podziękowanie

Ta implementacja używa kodu z następujących repozytoriów: Keith Ito, Prem Seetharaman i Liyuan Liu zgodnie z opisem w naszym kodzie.