Eestikeelse närvivõrkudel põhineva kõnesünteesi esialgsed tulemused

Treenitud kasutades Deep Voice 3 Pytorch implementatsiooni: https://github.com/r9y9/deepvoice3_pytorch.
Tehtud muudatused on leitavad siit: https://github.com/tambetm/deepvoice3_pytorch.

ER uudised (16.88 tundi, 7 erinevat diktorit)

Treenitud kõigi 7 diktori peal korraga, kasutades speaker embeddingut. Mitme hääle kasutamine annab parema tulemuse, st tekst on arusaadavam, aga hääles on rohkem müra. Igal diktoril on oma personaalsus, proovi näiteks kolmandat helinäidet iga diktoriga - kõik on genereeritud sama võrguga sama teksti pealt, ainult muutes rääkija embeddingut. Võrdluseks on toodud ka senine parim eesti keele kõnesüntesaator synthts_et. Nagu näha on närvivõrkudel põhinev kõnesüntees loomulikum, aga hetkel veel mürasem kui parameetriline.

Esimesed kolm lauset on (Meelis Kompuse) treeningandmestikust, järgmised kolm mitte. Kõik tulemused on ilma teacher forcinguta.

Meelis Kompus Tarmo Maiberg Kai Vare synthts_et (Tõnu)
Kell on neli, Eesti Raadio uudistega on stuudios Meelis Kompus.
Külma on üks kuni viis kraadi ja saartel on õhutemperatuur miinus ühe ja pluss ühe kraadi vahel. [r]
Need olid Eesti Raadio uudised.
Kanepi läbis Austraalias kvalifikatsiooni edukalt ja pääses kolmekümne kahe parema hulka.
Võõra viipekaardi leidnud alaealised lõid laiaks suure summa.
Las Vegases lasi mees maha kaks hotelli turvatöötajat.

Ainult Meelis Kompus (2.94 tundi)

Ainult ühe rääkijaga treenimine annab puhtama heli, aga tulemus ei üldistu suvalistele tekstidele.

Esimesed kolm lauset on treeningandmestikust, järgmised kolm mitte. Kõik tulemused on ilma teacher forcinguta.

Kell on neli, Eesti Raadio uudistega on stuudios Meelis Kompus.
Külma on üks kuni viis kraadi ja saartel on õhutemperatuur miinus ühe ja pluss ühe kraadi vahel. [r]
Need olid Eesti Raadio uudised.
Kanepi läbis Austraalias kvalifikatsiooni edukalt ja pääses kolmekümne kahe parema hulka.
Võõra viipekaardi leidnud alaealised lõid laiaks suure summa.
Las Vegases lasi mees maha kaks hotelli turvatöötajat.

Ainult EKI Eva (~3 tundi)

Jällegi ainult ühe rääkijaga treenimine annab puhtama heli, aga tulemus ei üldistu suvalistele tekstidele. Eva treeningandmestik oli kombineeritud lausetest ja üksikutest sõnadest, see võib-olla põhjendab raskusi pikemate lausetega.

Esimesed kolm lauset on treeningandmestikust, järgmised kolm mitte. Kõik tulemused on ilma teacher forcinguta.

Martini töö on kellegi teise pealt maha kopeeritud.
Milline on toetuste maksmise kord?
Ma pole sel aastal kordagi haige olnud.
Kanepi läbis Austraalias kvalifikatsiooni edukalt ja pääses kolmekümne kahe parema hulka.
Võõra viipekaardi leidnud alaealised lõid laiaks suure summa.
Las Vegases lasi mees maha kaks hotelli turvatöötajat.

© 2018 Tambet Matiisen, Tartu Ülikooli arvutiteaduse instituut ja Tallinna Tehnikaülikooli küberneetika instituudi foneetika ja kõnetehnoloogia laboratoorium