CereProc - CereProc

CereProc
Deweloper (y)	CereProc Ltd., Wielka Brytania
Pierwsze wydanie	2005 ; 16 lat temu
Wersja stabilna	Lipiec 2013 ; 7 lat temu
Napisane w	C / Python
System operacyjny	Wieloplatformowy
Dostępne w	Angielski, niemiecki, francuski, hiszpański, włoski, holenderski, kataloński, rumuński, japoński, portugalski, szkocki gaelicki, szwedzki, polski, irlandzki
Rodzaj	Tekst na mowę
Licencja	Reklama w telewizji
Stronie internetowej	www .cereproc .com

CereProc ( / s ɛ r ə ˌ p r ɒ k / SERR -ə-prok ) to synteza mowy firma z siedzibą w Edynburgu, w Szkocji, założona w 2005 roku firma specjalizuje się w tworzeniu naturalny i wyrazisty brzmiący tekst na mowę głosy, synteza głosów z akcentami regionalnymi oraz w klonowaniu głosu .

Technologia budowania głosu

CereProc tworzy głosy przy użyciu dwóch różnych technologii budowania głosu: syntezy wyboru jednostek i modelowania parametrycznego.

Głosy wyboru jednostek CereProc są zbudowane z dużych baz danych nagranej mowy. Podczas tworzenia bazy danych każda nagrana wypowiedź jest dzielona na niektóre lub wszystkie z następujących elementów: poszczególne telefony , sylaby , morfemy , słowa , frazy i zdania . Podział na segmenty odbywa się za pomocą specjalnie zmodyfikowanego rozpoznawania mowy . Następnie tworzony jest indeks jednostek w bazie danych mowy na podstawie segmentacji i parametrów akustycznych, takich jak częstotliwość podstawowa ( ton ), czas trwania, pozycja w sylabie i sąsiednie telefony. W czasie wykonywania żądana wypowiedź docelowa jest tworzona przez określenie najlepszego łańcucha jednostek kandydujących z bazy danych (wybór jednostek). Wybór jednostek zapewnia największą naturalność, ponieważ stosuje cyfrowe przetwarzanie sygnału (DSP) do nagranej mowy tylko w punktach konkatenacji. DSP często sprawia, że nagrana mowa jest mniej naturalna.

Głosy parametryczne CereProc wytwarzają syntezę mowy w oparciu o metodologie modelowania statystycznego. W tym systemie jednocześnie modelowane jest widmo częstotliwości ( droga głosowa ), częstotliwość podstawowa (źródło głosu) i czas trwania ( prozodia ) mowy. Przebiegi mowy są generowane na podstawie tych parametrów za pomocą vocodera . Co najważniejsze, głosy te mogą być zbudowane ze znacznie mniej nagranej mowy niż głosy wyboru jednostek i mają znacznie mniejszy ślad po zainstalowaniu, z tego powodu są używane do prywatnego klonowania głosu.

Głosy i języki

CereProc ma czterdzieści sześć ogólnie dostępnych głosów, które mówią w czternastu językach z wieloma różnymi regionalnymi akcentami:

Amerykański angielski: Isabella, Katherine, Hannah, Megan, Adam, Nathan, Andy (głos dziecka), Jordan (głos dziecka), Carolyn
Brytyjski angielski: Sarah, William, Jack, Lauren, Giles, Amy
Północny angielski: Jess
Szkocki angielski: Heather, Kirsty, Stuart, Andrew (głos dziecka), Mairi (głos dziecka)
Glasgow angielski: Dodo
Lancashire English: Claire
Irlandzki angielski: Caitlin
West Midlands English: Sue
Specjalne głosy FX: Demon, Ghost, Goblin, Pixie, Robot
Metropolitan francuski: Suzanne, Laurent
Kanadyjski francuski: Florencja
Kataloński: Rita
Hiszpański kastylijski: Sara
Hiszpański (Ameryka Łacińska): Ana
Włoski: Laura, Dario
Irlandzki: Peig
Holenderski: Ada
Niemiecki: Gudrun, Alex
Austriacki niemiecki: Leopold
Portugalski: Lúcia
Portugalski brazylijski: Gabriel
Japoński: Yuki
Szkocki gaelicki: Ceitidh
Szwedzki: Ylva
Polski: Pola
Rumuński: Daria
Angielski z francuskim akcentem: Nicole
Rosyjski: Avrora
Mandaryński: Mailin

Ponadto firma opracowała szereg głosów celebrytów, które nie są ogólnie dostępne dla opinii publicznej. Należą do nich George W. Bush , Barack Obama i Arnold Schwarzenegger .

Klonowanie głosu

W 2009 roku krytyk filmowy Roger Ebert zatrudnił CereProc do stworzenia syntetycznej wersji swojego głosu. Ebert stracił zdolność mówienia po operacji raka tarczycy . Firma CereProc wydobyła taśmy i komentarze na DVD z głosem Eberta, aby stworzyć głos przekształcający tekst na mowę, który brzmiał bardziej jak jego własny. Roger Ebert użył tego głosu w swoim występie 2 marca 2010 w The Oprah Winfrey Show .

Gracz NFL Steve Gleason został sklonowany przez CereProc po diagnozie z MND . Gleason pojawiła się w programie Microsoft „s Super Bowl XLVIII handlowej chwaląc moc technologii, używając jego syntetyczny głos opowiadać.

Technologia klonowania głosu CereProc jest obecnie używana w Wielkiej Brytanii przez osoby cierpiące na MND do tworzenia głosów syntezujących, zanim utracą one moc mowy. Proces ten został przedstawiony w filmie dokumentalnym BBC Radio 4 Giving the Critic Back His Voice , wyemitowanym w sierpniu 2011 roku.

Zgodność systemu

Głosy CereProc można wdrażać w różnych systemach operacyjnych i na różnych typach urządzeń. CereProc głosy stacjonarne są kompatybilne z Microsoft Windows i Apple Mac OS X . Instalują się jako głosy systemowe i mogą być używane przez inne aplikacje obsługujące mowę. System klient / serwer cServer firmy CereProc, przeznaczony głównie dla korporacyjnego rynku IVR, może działać na systemach Windows i Linux . Głosy CereProc Mobile można wdrożyć na Androida i Apple iOS . Pakiet SDK jest dostępny dla systemów Android, Linux, MacOS, iOS i Windows. Zestaw SDK zawiera powiązania dla języków C / C ++, C #, Java i Python.

Languages

In other projects

CereProc - CereProc

Zawartość

Technologia budowania głosu

Głosy i języki

Klonowanie głosu

Zgodność systemu

Zobacz też

Bibliografia

Zewnętrzne linki