Synteza artykulacyjna - Articulatory synthesis

Model 3D traktu głosowego do syntezy artykulacyjnej W oparciu o modelowanie koartykulacji spółgłosek i samogłosek, niemieckie zdanie „ Lea und Doreen mögen Bananen. ” zostało odtworzone z naturalnie wypowiadanego zdania pod względem częstotliwości podstawowej i czasu trwania rozmowy.

Synteza artykulacyjna odnosi się do technik obliczeniowych syntezy mowy na podstawie modeli ludzkiego traktu głosowego i zachodzących w nim procesów artykulacyjnych. Kształt traktu głosowego można kontrolować na wiele sposobów, co zwykle wiąże się z modyfikacją pozycji artykulatorów mowy, takich jak język , szczęka i wargi. Mowa jest tworzona przez cyfrową symulację przepływu powietrza przez reprezentację traktu głosowego.

Mechaniczne głowice gadające

Próby zbudowania mechanicznych „ gadających głów ” mają długą historię . . Mówi się, że Gerbert (zm. 1003), Albertus Magnus (1198–1280) i Roger Bacon (1214–1294) zbudowali mówiące głowy ( Wheatstone 1837). Jednak historycznie potwierdzona synteza mowy zaczyna się od Wolfganga von Kempelena (1734–1804), który w 1791 r. opublikował relację ze swoich badań (zob. także Dudley i Tarnoczy 1950 ).

Elektryczne analogi układu głosowego

Pierwsze elektryczne analogi układu głosowego były statyczne, jak te Dunna (1950), Kena Stevensa i współpracowników (1953), Gunnara Fanta (1960). Rosen (1958) zbudował dynamiczny trakt głosowy (DAVO), który później Dennis (1963) próbował kontrolować za pomocą komputera. Dennis i in. (1964), Hiki i in. (1968) oraz Baxter i Strong (1969) również opisali sprzętowe analogi dróg głosowych. Kelly i Lochbaum (1962) wykonali pierwszą symulację komputerową; późniejsze cyfrowe symulacje komputerowe zostały wykonane, np. przez Nakatę i Mitsuokę (1965), Matsui (1968) i Paula Mermelsteina (1971). Honda i in. (1968) dokonali analogowej symulacji komputerowej .

Haskins i modele Maeda

Pierwszy programowy syntezator artykulacyjny regularnie używany w eksperymentach laboratoryjnych został opracowany w Haskins Laboratories w połowie lat 70. przez Philipa Rubina , Toma Baera i Paula Mermelsteina. Ten syntezator, znany jako ASY, był obliczeniowym modelem produkcji mowy opartym na modelach traktu głosowego opracowanych w Bell Laboratories w latach 60. i 70. XX wieku przez Paula Mermelsteina, Cecila Cokera i współpracowników. Innym popularnym modelem, który był często używany, jest model Shinji Maeda, który wykorzystuje podejście oparte na czynnikach do kontrolowania kształtu języka .

Nowoczesne modele

Niedawny postęp w obrazowaniu produkcji mowy, modelowaniu kontroli artykulacyjnej i modelowaniu biomechaniki języka doprowadził do zmian w sposobie przeprowadzania syntezy artykulacyjnej [1] . Przykłady obejmują model Haskins CASY (Configurable Articulatory Synthesis), zaprojektowany przez Philipa Rubina , Marka Tiede [2] i Louisa Goldsteina [3] , który dopasowuje środkowostrzałkowe trakty głosowe do rzeczywistych danych z rezonansu magnetycznego (MRI) i wykorzystuje dane MRI do skonstruować model 3D traktu głosowego. Pełny model syntezy artykulacyjnej 3D opisał Olov Engwall. Peter Birkholz (VocalTractLab) opracował artykulacyjny syntezator mowy 3D oparty na geometrii. Model Directions Into Velocities of Articulators (DIVA) , czyli wyprzedzające podejście do sterowania, które uwzględnia obliczenia neuronalne leżące u podstaw produkcji mowy, został opracowany przez Franka H. Guenthera z Boston University . Projekt ArtiSynth, kierowany przez Sidneya Felsa [4] na Uniwersytecie Kolumbii Brytyjskiej , to zestaw narzędzi do biomechanicznego modelowania 3D ludzkiego układu głosowego i górnych dróg oddechowych. Biomechaniczne modelowanie artykulatorów, takich jak język , zostało zapoczątkowane przez wielu naukowców, w tym Reinera Wilhelmsa-Tricarico [5] , Yohan Payan [6] i Jean-Michel Gerard [7] , Jianwu Dang i Kiyoshi Honda [8] .

Modele komercyjne

Jednym z niewielu komercyjnych systemów artykulacyjnej syntezy mowy jest system oparty na NeXT , pierwotnie opracowany i wprowadzony na rynek przez Trillium Sound Research, firmę spin-off z University of Calgary , gdzie przeprowadzono wiele oryginalnych badań. Po upadku różnych wcieleń NeXT (założonych przez Steve'a Jobsa pod koniec lat 80. i połączonych z Apple Computer w 1997 r.), oprogramowanie Trillium zostało opublikowane na licencji GNU General Public License , a prace kontynuowano jako gnuspeech . System, po raz pierwszy wprowadzony na rynek w 1994 r., zapewnia pełną, opartą na artykulacji konwersję tekstu na mowę przy użyciu falowodu lub analogu linii transmisyjnej dróg oddechowych człowieka, kontrolowanych przez „model dystynktywnych regionów” Rene Carré.

Zobacz też

Przypisy

Bibliografia

  • Baxtera, Brenta i Williama J. Stronga. (1969). WINDBAG — analogowy syntezator mowy wokalno-traktowej. Journal of the Acoustical Society of America , 45, 309(A).
  • Birkholz P, Jackel D, Kröger BJ (2007) Symulacja strat spowodowanych turbulencjami w zmiennym w czasie układzie głosowym. Transakcje IEEE dotyczące przetwarzania dźwięku, mowy i języka 15: 1218-1225
  • Birkholz P, Jackel D, Kröger BJ (2006) Konstrukcja i kontrola trójwymiarowego modelu traktu głosowego. Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP 2006) (Toulouse, France) s. 873–876
  • Koksowanie. CH (1968). Synteza mowy z parametrycznym modelem artykulacyjnym. Proc. Przemówienie. Symp., Kioto, Japonia , papier A-4.
  • Coker, CH (1976). „Model dynamiki i kontroli artykulacyjnej”. Postępowanie IEEE . 64 (4): 452-460. doi : 10.1109/PROC.1976.10154 . S2CID  1412611 .
  • Koksownica; Fujimura, O. (1966). „Model do specyfikacji funkcji obszaru dróg głosowych”. Dziennik Amerykańskiego Towarzystwa Akustycznego . 40 (5): 1271. Kod Bib : 1966ASAJ...40.1271C . doi : 10.1121/1.2143456 .
  • Dennis, Jack B. (1963). Komputerowe sterowanie analogowym traktem głosowym. Journal of the Acoustical Society of America , 35, 1115(A).
  • Dudleya, Homera; Tarnoczego, Tomasz H. (1950). „Maszyna mówiąca Wolfganga von Kempelena” (PDF) . Dziennik Amerykańskiego Towarzystwa Akustycznego . 22 (2): 151–166. Kod Bib : 1950ASAJ...22..151D . doi : 10.1121/1.1906583 .
  • Dunn, Hugh K. (1950). „Obliczanie rezonansów samogłosek i elektrycznego traktu głosowego”. Dziennik Amerykańskiego Towarzystwa Akustycznego . 22 (6): 740–53. Kod bib : 1950ASAJ...2...740D . doi : 10.1121/1.1906681 .
  • Engwall, O. (2003). Połączenie pomiarów MRI, EMA i EPG w trójwymiarowym modelu języka. Komunikacja mowy, 41, 303-329.
  • Fant, C. Gunnar M. (1960). Akustyczna teoria produkcji mowy . Haga, Mouton.
  • Gariel, M. (1879). "Maszyna parlante de M. Faber" . J. Physique Théorique et Appliquée . 8 : 274–5. doi : 10.1051/jphystap:018790080027401 .
  • Gerard, JM; Wilhelms-Tricarico, R.; Perrier, P.; Payan, Y. (2003). „Dynamiczny biomechaniczny model języka 3D do badania kontroli motorycznej mowy” (PDF) . Najnowsze osiągnięcia badawcze w biomechanice . 1 : 49–64.
  • Henkego, WL (1966). Dynamiczny artykulacyjny model wytwarzania mowy z wykorzystaniem symulacji komputerowej. Niepublikowana rozprawa doktorska, MIT, Cambridge, MA.
  • Honda, Takashi, Seiichi Inoue i Yasuo Ogawa. (1968). Hybrydowy system sterowania symulatorem ludzkiego układu głosowego. Sprawozdania z VI Międzynarodowego Kongresu Akustyki , wyd. Y. Kohasi, s. 175-8. Tokio, Międzynarodowa Rada Związków Naukowych.
  • Kelly, John L. i Carol Lochbaum. (1962). Synteza mowy. Materiały z seminarium komunikacji mowy , referat F7. Sztokholm, Laboratorium Transmisji Mowy, Królewski Instytut Technologiczny.
  • Kempelen, Wolfgang R. Von. (1791). Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine . Wiedeń, JB Degen.
  • Maeda, S. (1988). Ulepszony model artykulacyjny. Journal of the Acoustical Society of America , 84, Sup. 1, S146.
  • Maeda, S. (1990). Artykulacja kompensacyjna podczas mowy: dowody z analizy i syntezy kształtów traktu głosowego za pomocą modelu artykulacyjnego. W WJ Hardcastle i A. Marchal (red.), Produkcja mowy i modelowanie mowy , Kluwer Academic, Dordrecht, 131-149.
  • Matsui, Eiichi. (1968). Symulowane komputerowo narządy głosowe. Sprawozdania z VI Międzynarodowego Kongresu Akustyki , wyd. Y. Kohasi, s. 151–4. Tokio, Międzynarodowa Rada Związków Naukowych.
  • Mermelstein, Paweł. (1969). Symulacja komputerowa czynności artykulacyjnych w produkcji mowy. Proceedings of the International Joint Conference on Artificial Intelligence , Washington, DC, 1969, wyd. autorstwa DE Walkera i LM Nortona. Nowy Jork, Gordon & Breach.
  • Mermelstein, P. (1973). „Model artykulacyjny do badania produkcji mowy”. Dziennik Amerykańskiego Towarzystwa Akustycznego . 53 (4): 1070–1082. Kod Bib : 1973ASAJ...53.1070M . doi : 10.1121/1.1913427 . PMID  4697807 .
  • Nakata, Kazuo; Mitsuoka, T. (1965). „Transformacja fonemiczna i aspekty kontrolne syntezy mowy połączonej”. J. Radio Res. Laboratorium . 12 : 171–86.
  • Rahim, M.; Goodyear, C.; Kleijn, W.; Schroeter, J.; Sondhi, M. (1993). „W sprawie wykorzystania sieci neuronowych w syntezie mowy artykulacyjnej”. Dziennik Amerykańskiego Towarzystwa Akustycznego . 93 (2): 1109-1121. Kod Bib : 1993ASAJ...93.110R . doi : 10.1121/1.405559 .
  • Rosen, George (1958). „Dynamiczny analogowy syntezator mowy”. Dziennik Amerykańskiego Towarzystwa Akustycznego . 30 (3): 201-9. Kod bib : 1958ASAJ...30..201R . doi : 10.1121/1.1909541 . hdl : 1721.1/118106 .
  • Rubin, PE; Baer, ​​T.; Mermelstein, P. (1981). „Syntezator artykulacyjny do badań percepcyjnych”. Dziennik Amerykańskiego Towarzystwa Akustycznego . 70 (2): 321–328. Kod bib : 1981ASAJ...70..321R . doi : 10.1121/1.386780 .
  • Rubin P., Saltzman E., Goldstein L., McGowan R., Tiede M. i Browman C. (1996). CASY i rozszerzenia modelu dynamicznego zadaniowego. Materiały z 1. warsztatu szkoleniowego i badawczego ESCA dotyczącego modelowania mowy - 4. seminarium poświęcone wytwarzaniu mowy , 125-128.
  • Stevens, Kenneth N.; Kasowski S.; Fant, C. Gunnar M. (1953). „Elektryczny analog traktu głosowego”. Dziennik Amerykańskiego Towarzystwa Akustycznego . 25 (4): 734–42. Kod bib : 1953ASAJ...25..734S . doi : 10.1121/1.1907169 .

Zewnętrzne linki