Synteza mowy chińskiej - Chinese speech synthesis

Chińska synteza mowy to zastosowanie syntezy mowy do języka chińskiego (zazwyczaj chińskiego standardowego ). Stwarza to dodatkowe trudności ze względu na chińskie znaki (które często mają różną wymowę w różnych kontekstach), złożoną prozodię , która jest niezbędna do przekazania znaczenia słów, a czasami trudność w uzyskaniu porozumienia wśród rodzimych użytkowników języka co do tego, jaka jest poprawna wymowa niektórych fonemów .

Konkatenacja (Ekho i KeyTip)

Nagrania można łączyć w dowolną żądaną kombinację, ale połączenia brzmią wymuszane (jak zwykle w przypadku prostej syntezy mowy opartej na konkatenacji ), co może poważnie wpłynąć na prozodię; te syntezatory są również nieelastyczne pod względem szybkości i ekspresji. Jednakże, ponieważ te syntezatory nie opierają się na korpusie, nie ma zauważalnego pogorszenia wydajności, gdy podaje się im bardziej nietypowe lub niezręczne frazy.

Ekho to TTS o otwartym kodzie źródłowym, który po prostu łączy próbkowane sylaby. Obecnie obsługuje kantoński , mandaryński i eksperymentalnie koreański . Niektóre sylaby mandaryńskie zostały znormalizowane w Praat . Zmodyfikowana wersja jest używana w "syntezie z podszablonów " Gradinta .

cjkware.com wysyłał produkt o nazwie KeyTip Putonghua Reader, który działał podobnie; zawierał 120 megabajtów nagrań dźwiękowych (skompresowanych przez GSM do 40 megabajtów w wersji ewaluacyjnej), obejmujących 10 000 wielosylabowych słów słownikowych oraz nagrania jednosylabowe w 6 różnych prozodiach (4 tony, ton neutralny i dodatkowe nagranie trzeciego tonu do wykorzystania na końcu frazy).

Lekkie syntezatory (eSpeak i Yuet)

Lekki projekt mowy o otwartym kodzie źródłowym eSpeak , który ma własne podejście do syntezy, eksperymentował z mandaryńskim i kantońskim. eSpeak był używany przez Google Translate od maja 2010 do grudnia 2010.

Komercyjny produkt „Yuet” jest również lekki (ma być odpowiedni dla środowisk o ograniczonych zasobach, takich jak systemy wbudowane ); został napisany od podstaw w ANSI C, począwszy od 2013 roku. Yuet twierdzi, że ma wbudowany model NLP , który nie wymaga osobnego słownika; mowa syntetyzowana przez silnik zapewnia wyraźne granice słów i nacisk na odpowiednie słowa. Do uzyskania kopii wymagana jest komunikacja z jej autorem.

Zarówno eSpeak, jak i Yuet mogą syntezować mowę dla kantońskiego i mandaryńskiego z tego samego tekstu wejściowego i mogą wyprowadzać odpowiednią latynizację (w przypadku kantońskiego Yuet używa Yale, a eSpeak używa Jyutping ; oba używają Pinyin dla mandaryńskiego). eSpeak nie zajmuje się granicami słów, gdy nie zmieniają one kwestii, którą sylabę należy wypowiedzieć.

Oparte na korpusie

Podejście oparte na korpusie może w większości przypadków brzmieć bardzo naturalnie, ale może pomylić się z nietypowymi frazami, jeśli nie można ich dopasować do korpusu. Silnik syntezatora jest zazwyczaj bardzo duży (setki, a nawet tysiące megabajtów) ze względu na rozmiar korpusu.

iFlyTek

Anhui USTC iFlyTek Co., Ltd (iFlyTek) opublikował artykuł W3C, w którym zaadaptowali język znaczników syntezy mowy, aby stworzyć język znaczników zwany chińskim językiem znaczników syntezy mowy (CSSML), który może zawierać dodatkowe znaczniki w celu wyjaśnienia wymowy znaków i aby dodać trochę informacji prozodii. Ilość zaangażowanych danych nie jest ujawniana przez iFlyTek, ale można je zobaczyć na podstawie produktów komercyjnych, na które iFlyTek udzielił licencji na swoją technologię; na przykład Bider's SpeechPlus to pobieranie 1,3 gigabajta, z czego 1,2 gigabajta jest używane do wysoce skompresowanych danych dla pojedynczego chińskiego głosu. Syntezator iFlyTek może również syntetyzować mieszany tekst chiński i angielski z tym samym głosem (np. chińskie zdania zawierające kilka angielskich słów); twierdzą, że ich angielska synteza jest „przeciętna”.

Korpus iFlyTek wydaje się być silnie zależny od chińskich znaków i nie można zsyntetyzować z samego pinyin . Czasami za pomocą CSSML można dodać pinyin do znaków, aby odróżnić wiele możliwych wymowy, ale to nie zawsze działa.

NeoSpeech

Istnieje interaktywna demonstracja online syntezy mowy NeoSpeech , która akceptuje chińskie znaki, a także pinyin, jeśli jest zawarty w ich zastrzeżonym znaczniku „VTML”.

System operacyjny Mac

Mac OS miał chińskie syntezatory mowy dostępne aż do wersji 9. Zostało to usunięte w wersji 10.0 i przywrócone w wersji 10.7 (Lion).

Historyczne syntezatory korpusowe (nie są już dostępne)

Podejście oparte na korpusie zostało przyjęte przez Uniwersytet Tsinghua w SinoSonic, przy czym dane głosowe dialektu Harbin zajmują 800 megabajtów. Planowano, że będzie to oferowane do pobrania, ale link nigdy nie został aktywowany. Obecnie odniesienia do niej można znaleźć tylko w Internet Archive .

Podejście Bell Labs, które zostało zademonstrowane online w 1997 roku, ale następnie usunięte, zostało opisane w monografii „Multilingual Text-to-Speech Synthesis: The Bell Labs Approach” (Springer, 31 października 1997, ISBN  978-0-7923-8027 -6 ), a były pracownik, który był odpowiedzialny za projekt, Chilin Shih (która później pracowała na Uniwersytecie Illinois) umieścił kilka notatek na temat jej metod na swojej stronie internetowej.

Bibliografia