CereProc - CereProc

CereProc
CereProcLogo 2.png
Deweloper (y) CereProc Ltd., Wielka Brytania
Pierwsze wydanie 2005 ; 16 lat temu  ( 2005 )
Wersja stabilna
Lipiec 2013 ; 7 lat temu  ( 2013-07 )
Napisane w C / Python
System operacyjny Wieloplatformowy
Dostępne w Angielski, niemiecki, francuski, hiszpański, włoski, holenderski, kataloński, rumuński, japoński, portugalski, szkocki gaelicki, szwedzki, polski, irlandzki
Rodzaj Tekst na mowę
Licencja Reklama w telewizji
Stronie internetowej www .cereproc .com

CereProc ( / s ɛ r ə ˌ p r ɒ k / SERR -ə-prok ) to synteza mowy firma z siedzibą w Edynburgu, w Szkocji, założona w 2005 roku firma specjalizuje się w tworzeniu naturalny i wyrazisty brzmiący tekst na mowę głosy, synteza głosów z akcentami regionalnymi oraz w klonowaniu głosu .

Technologia budowania głosu

CereProc tworzy głosy przy użyciu dwóch różnych technologii budowania głosu: syntezy wyboru jednostek i modelowania parametrycznego.

Głosy wyboru jednostek CereProc są zbudowane z dużych baz danych nagranej mowy. Podczas tworzenia bazy danych każda nagrana wypowiedź jest dzielona na niektóre lub wszystkie z następujących elementów: poszczególne telefony , sylaby , morfemy , słowa , frazy i zdania . Podział na segmenty odbywa się za pomocą specjalnie zmodyfikowanego rozpoznawania mowy . Następnie tworzony jest indeks jednostek w bazie danych mowy na podstawie segmentacji i parametrów akustycznych, takich jak częstotliwość podstawowa ( ton ), czas trwania, pozycja w sylabie i sąsiednie telefony. W czasie wykonywania żądana wypowiedź docelowa jest tworzona przez określenie najlepszego łańcucha jednostek kandydujących z bazy danych (wybór jednostek). Wybór jednostek zapewnia największą naturalność, ponieważ stosuje cyfrowe przetwarzanie sygnału (DSP) do nagranej mowy tylko w punktach konkatenacji. DSP często sprawia, że ​​nagrana mowa jest mniej naturalna.

Głosy parametryczne CereProc wytwarzają syntezę mowy w oparciu o metodologie modelowania statystycznego. W tym systemie jednocześnie modelowane jest widmo częstotliwości ( droga głosowa ), częstotliwość podstawowa (źródło głosu) i czas trwania ( prozodia ) mowy. Przebiegi mowy są generowane na podstawie tych parametrów za pomocą vocodera . Co najważniejsze, głosy te mogą być zbudowane ze znacznie mniej nagranej mowy niż głosy wyboru jednostek i mają znacznie mniejszy ślad po zainstalowaniu, z tego powodu są używane do prywatnego klonowania głosu.

Głosy i języki

CereProc ma czterdzieści sześć ogólnie dostępnych głosów, które mówią w czternastu językach z wieloma różnymi regionalnymi akcentami:

  • Amerykański angielski: Isabella, Katherine, Hannah, Megan, Adam, Nathan, Andy (głos dziecka), Jordan (głos dziecka), Carolyn
  • Brytyjski angielski: Sarah, William, Jack, Lauren, Giles, Amy
  • Północny angielski: Jess
  • Szkocki angielski: Heather, Kirsty, Stuart, Andrew (głos dziecka), Mairi (głos dziecka)
  • Glasgow angielski: Dodo
  • Lancashire English: Claire
  • Irlandzki angielski: Caitlin
  • West Midlands English: Sue
  • Specjalne głosy FX: Demon, Ghost, Goblin, Pixie, Robot
  • Metropolitan francuski: Suzanne, Laurent
  • Kanadyjski francuski: Florencja
  • Kataloński: Rita
  • Hiszpański kastylijski: Sara
  • Hiszpański (Ameryka Łacińska): Ana
  • Włoski: Laura, Dario
  • Irlandzki: Peig
  • Holenderski: Ada
  • Niemiecki: Gudrun, Alex
  • Austriacki niemiecki: Leopold
  • Portugalski: Lúcia
  • Portugalski brazylijski: Gabriel
  • Japoński: Yuki
  • Szkocki gaelicki: Ceitidh
  • Szwedzki: Ylva
  • Polski: Pola
  • Rumuński: Daria
  • Angielski z francuskim akcentem: Nicole
  • Rosyjski: Avrora
  • Mandaryński: Mailin

Ponadto firma opracowała szereg głosów celebrytów, które nie są ogólnie dostępne dla opinii publicznej. Należą do nich George W. Bush , Barack Obama i Arnold Schwarzenegger .

Klonowanie głosu

W 2009 roku krytyk filmowy Roger Ebert zatrudnił CereProc do stworzenia syntetycznej wersji swojego głosu. Ebert stracił zdolność mówienia po operacji raka tarczycy . Firma CereProc wydobyła taśmy i komentarze na DVD z głosem Eberta, aby stworzyć głos przekształcający tekst na mowę, który brzmiał bardziej jak jego własny. Roger Ebert użył tego głosu w swoim występie 2 marca 2010 w The Oprah Winfrey Show .

Gracz NFL Steve Gleason został sklonowany przez CereProc po diagnozie z MND . Gleason pojawiła się w programie Microsoft „s Super Bowl XLVIII handlowej chwaląc moc technologii, używając jego syntetyczny głos opowiadać.

Technologia klonowania głosu CereProc jest obecnie używana w Wielkiej Brytanii przez osoby cierpiące na MND do tworzenia głosów syntezujących, zanim utracą one moc mowy. Proces ten został przedstawiony w filmie dokumentalnym BBC Radio 4 Giving the Critic Back His Voice , wyemitowanym w sierpniu 2011 roku.

Zgodność systemu

Głosy CereProc można wdrażać w różnych systemach operacyjnych i na różnych typach urządzeń. CereProc głosy stacjonarne są kompatybilne z Microsoft Windows i Apple Mac OS X . Instalują się jako głosy systemowe i mogą być używane przez inne aplikacje obsługujące mowę. System klient / serwer cServer firmy CereProc, przeznaczony głównie dla korporacyjnego rynku IVR, może działać na systemach Windows i Linux . Głosy CereProc Mobile można wdrożyć na Androida i Apple iOS . Pakiet SDK jest dostępny dla systemów Android, Linux, MacOS, iOS i Windows. Zestaw SDK zawiera powiązania dla języków C / C ++, C #, Java i Python.

Zobacz też

Bibliografia

Zewnętrzne linki