CereProc - CereProc
Deweloper (y) | CereProc Ltd., Wielka Brytania |
---|---|
Pierwsze wydanie | 2005 |
Wersja stabilna | Lipiec 2013
|
Napisane w | C / Python |
System operacyjny | Wieloplatformowy |
Dostępne w | Angielski, niemiecki, francuski, hiszpański, włoski, holenderski, kataloński, rumuński, japoński, portugalski, szkocki gaelicki, szwedzki, polski, irlandzki |
Rodzaj | Tekst na mowę |
Licencja | Reklama w telewizji |
Stronie internetowej | www |
CereProc ( / s ɛ r ə ˌ p r ɒ k / SERR -ə-prok ) to synteza mowy firma z siedzibą w Edynburgu, w Szkocji, założona w 2005 roku firma specjalizuje się w tworzeniu naturalny i wyrazisty brzmiący tekst na mowę głosy, synteza głosów z akcentami regionalnymi oraz w klonowaniu głosu .
Technologia budowania głosu
CereProc tworzy głosy przy użyciu dwóch różnych technologii budowania głosu: syntezy wyboru jednostek i modelowania parametrycznego.
Głosy wyboru jednostek CereProc są zbudowane z dużych baz danych nagranej mowy. Podczas tworzenia bazy danych każda nagrana wypowiedź jest dzielona na niektóre lub wszystkie z następujących elementów: poszczególne telefony , sylaby , morfemy , słowa , frazy i zdania . Podział na segmenty odbywa się za pomocą specjalnie zmodyfikowanego rozpoznawania mowy . Następnie tworzony jest indeks jednostek w bazie danych mowy na podstawie segmentacji i parametrów akustycznych, takich jak częstotliwość podstawowa ( ton ), czas trwania, pozycja w sylabie i sąsiednie telefony. W czasie wykonywania żądana wypowiedź docelowa jest tworzona przez określenie najlepszego łańcucha jednostek kandydujących z bazy danych (wybór jednostek). Wybór jednostek zapewnia największą naturalność, ponieważ stosuje cyfrowe przetwarzanie sygnału (DSP) do nagranej mowy tylko w punktach konkatenacji. DSP często sprawia, że nagrana mowa jest mniej naturalna.
Głosy parametryczne CereProc wytwarzają syntezę mowy w oparciu o metodologie modelowania statystycznego. W tym systemie jednocześnie modelowane jest widmo częstotliwości ( droga głosowa ), częstotliwość podstawowa (źródło głosu) i czas trwania ( prozodia ) mowy. Przebiegi mowy są generowane na podstawie tych parametrów za pomocą vocodera . Co najważniejsze, głosy te mogą być zbudowane ze znacznie mniej nagranej mowy niż głosy wyboru jednostek i mają znacznie mniejszy ślad po zainstalowaniu, z tego powodu są używane do prywatnego klonowania głosu.
Głosy i języki
CereProc ma czterdzieści sześć ogólnie dostępnych głosów, które mówią w czternastu językach z wieloma różnymi regionalnymi akcentami:
- Amerykański angielski: Isabella, Katherine, Hannah, Megan, Adam, Nathan, Andy (głos dziecka), Jordan (głos dziecka), Carolyn
- Brytyjski angielski: Sarah, William, Jack, Lauren, Giles, Amy
- Północny angielski: Jess
- Szkocki angielski: Heather, Kirsty, Stuart, Andrew (głos dziecka), Mairi (głos dziecka)
- Glasgow angielski: Dodo
- Lancashire English: Claire
- Irlandzki angielski: Caitlin
- West Midlands English: Sue
- Specjalne głosy FX: Demon, Ghost, Goblin, Pixie, Robot
- Metropolitan francuski: Suzanne, Laurent
- Kanadyjski francuski: Florencja
- Kataloński: Rita
- Hiszpański kastylijski: Sara
- Hiszpański (Ameryka Łacińska): Ana
- Włoski: Laura, Dario
- Irlandzki: Peig
- Holenderski: Ada
- Niemiecki: Gudrun, Alex
- Austriacki niemiecki: Leopold
- Portugalski: Lúcia
- Portugalski brazylijski: Gabriel
- Japoński: Yuki
- Szkocki gaelicki: Ceitidh
- Szwedzki: Ylva
- Polski: Pola
- Rumuński: Daria
- Angielski z francuskim akcentem: Nicole
- Rosyjski: Avrora
- Mandaryński: Mailin
Ponadto firma opracowała szereg głosów celebrytów, które nie są ogólnie dostępne dla opinii publicznej. Należą do nich George W. Bush , Barack Obama i Arnold Schwarzenegger .
Klonowanie głosu
W 2009 roku krytyk filmowy Roger Ebert zatrudnił CereProc do stworzenia syntetycznej wersji swojego głosu. Ebert stracił zdolność mówienia po operacji raka tarczycy . Firma CereProc wydobyła taśmy i komentarze na DVD z głosem Eberta, aby stworzyć głos przekształcający tekst na mowę, który brzmiał bardziej jak jego własny. Roger Ebert użył tego głosu w swoim występie 2 marca 2010 w The Oprah Winfrey Show .
Gracz NFL Steve Gleason został sklonowany przez CereProc po diagnozie z MND . Gleason pojawiła się w programie Microsoft „s Super Bowl XLVIII handlowej chwaląc moc technologii, używając jego syntetyczny głos opowiadać.
Technologia klonowania głosu CereProc jest obecnie używana w Wielkiej Brytanii przez osoby cierpiące na MND do tworzenia głosów syntezujących, zanim utracą one moc mowy. Proces ten został przedstawiony w filmie dokumentalnym BBC Radio 4 Giving the Critic Back His Voice , wyemitowanym w sierpniu 2011 roku.
Zgodność systemu
Głosy CereProc można wdrażać w różnych systemach operacyjnych i na różnych typach urządzeń. CereProc głosy stacjonarne są kompatybilne z Microsoft Windows i Apple Mac OS X . Instalują się jako głosy systemowe i mogą być używane przez inne aplikacje obsługujące mowę. System klient / serwer cServer firmy CereProc, przeznaczony głównie dla korporacyjnego rynku IVR, może działać na systemach Windows i Linux . Głosy CereProc Mobile można wdrożyć na Androida i Apple iOS . Pakiet SDK jest dostępny dla systemów Android, Linux, MacOS, iOS i Windows. Zestaw SDK zawiera powiązania dla języków C / C ++, C #, Java i Python.