Formant - Formant

Spektrogram samogłosek anglojęzycznych [i, u, ɑ] ukazujący formanty F 1 i F 2

W nauce mowy i fonetyki , o formant jest szerokie maksimum spektralnej, że wyniki z akustycznym rezonansie ludzkiego przewodu wokalnego. W akustyce formant jest zwykle definiowany jako szeroki szczyt lub lokalne maksimum w widmie. W przypadku dźwięków harmonicznych, zgodnie z tą definicją, częstotliwość formanta jest czasami przyjmowana jako częstotliwość harmonicznejczęściowa, która jest najbardziej wzmocniona przez rezonans. Różnica między tymi dwiema definicjami polega na tym, czy „formanty” charakteryzują mechanizmy wytwarzania dźwięku, czy też sam wytwarzany dźwięk. W praktyce częstotliwość szczytu widmowego różni się od powiązanej częstotliwości rezonansowej, z wyjątkiem sytuacji, gdy szczęśliwie harmoniczne są wyrównane z częstotliwością rezonansową.

Można powiedzieć, że pomieszczenie ma charakterystyczne dla tego pomieszczenia formanty, ze względu na sposób, w jaki dźwięk odbija się od jego ścian i przedmiotów. Tego rodzaju formanty pokojowe wzmacniają się poprzez podkreślanie określonych częstotliwości i pochłanianie innych, co wykorzystał np. Alvin Lucer w swoim utworze Siedzę w pokoju .

Historia

Z akustycznego punktu widzenia fonetyka miała poważny problem z ideą, że efektywna długość traktu głosowego zmienia samogłoski. Rzeczywiście, gdy zmienia się długość traktu głosowego, skalowane są wszystkie rezonatory akustyczne utworzone przez jamę ustną, podobnie jak ich częstotliwości rezonansowe. Dlatego nie było jasne, w jaki sposób samogłoski mogą zależeć od częstotliwości, gdy mówcy o różnej długości traktu głosowego, na przykład śpiewacy basowi i sopraniści , mogą wydawać dźwięki, które są postrzegane jako należące do tej samej kategorii fonetycznej. Musiał istnieć jakiś sposób na normalizację informacji spektralnych leżących u podstaw tożsamości samogłosek. Hermann zaproponował rozwiązanie tego problemu w 1894 roku, ukuł termin „formant”. Według niego samogłoska jest szczególnym zjawiskiem akustycznym, zależnym od przerywanego wytwarzania specjalnej części lub „formantu” lub „charakterystyki”. Częstotliwość „formantu” może się nieco różnić bez zmiany charakteru samogłoski. Dla , na przykład, „formant” może zmieniać się od 350 do 440 Hz, nawet w tej samej osoby.

Fonetyka

Średnie formanty samogłoskowe dla męskiego głosu
Samogłoska
( IPA )
Formant F 1
(Hz)
Formant F 2
(Hz)
Różnica
F 1F 2
(Hz)
ja 240 2400 2160
tak 235 2100 1865
mi 390 2300 1910
ø 370 1900 1530
ɛ 610 1900 1290
œ 585 1710 1125
za 850 1610 760
ɶ 820 1530 710
ɑ 750 940 190
ɒ 700 760 60
ʌ 600 1170 570
ɔ 500 700 200
ɤ 460 1310 850
o 360 640 280
ɯ 300 1390 1090
ty 250 595 345
Formanty samogłosek średnich na diagramie

Formanty to charakterystyczne składowe częstotliwościowe sygnału akustycznego wytwarzane przez mowę, instrumenty muzyczne lub śpiew . Informacje potrzebne ludziom do rozróżnienia dźwięków mowy można przedstawić w sposób czysto ilościowy, określając szczyty w widmie amplitudy lub częstotliwości. Większość z tych formantów jest wytwarzana przez rezonans rurowy i komorowy , ale kilka tonów gwizdów pochodzi z okresowego zapadania się stref niskiego ciśnienia z efektem Venturiego . Formant o najniższej częstotliwości nazywa się F 1 , drugi F 2 , a trzeci F 3 . ( Podstawowa częstotliwość lub wysokość głosu jest czasami określana jako F 0 , ale nie jest to formant). Najczęściej dwie pierwsze formanty, F 1 i F 2 , są wystarczające do identyfikacji samogłoski. Zależność między postrzeganą jakością samogłosek a pierwszymi dwiema częstotliwościami formantowymi można docenić słuchając „sztucznych samogłosek”, które są generowane przez przepuszczenie ciągu klikania (w celu symulacji ciągu impulsów głośni) przez parę filtrów pasmowoprzepustowych (w celu symulacji traktu głosowego rezonansów).

Spółgłoski nosowe mają zwykle dodatkowy formant około 2500 Hz. Ciecz [l] zwykle ma dodatkowy formant przy 1500 Hz, podczas gdy angielski dźwięk „r” ( [ɹ] ) wyróżnia się bardzo niskim trzecim formantem (znacznie poniżej 2000 Hz).

Zwarte (i do pewnego stopnia szczelinowniki ) modyfikują rozmieszczenie formantów w otaczających samogłoskach. Dźwięki dwuwargowe (takie jak /b/ i /p/ w "piłce" lub "sapie") powodują obniżenie formantów; dźwięki welarne ( / k / i / ɡ / w języku angielskim) prawie zawsze pokazują F 2 i F 3 schodzące się w "szczypnięcie welarne" przed welarem i oddzielające się od tego samego "szczypnięcia", gdy welar jest zwolniony; Dźwięki pęcherzykowe (angielskie /t/ i /d/ ) powodują mniej systematycznych zmian w sąsiednich formantach samogłosek, częściowo w zależności od tego, która samogłoska jest obecna. Przebieg w czasie tych zmian częstości formantów samogłosek określa się jako „przejścia formantów”.

Podstawową częstotliwością leżących u podstaw wibracji jest fala piłokształtna , bogata w harmoniczne podteksty. Jeśli częstotliwość podstawowa lub (częściej) jeden z alikwotów jest wyższa niż częstotliwość rezonansowa systemu, to formant zwykle nadawany przez ten rezonans zostanie w większości utracony. Najbardziej widoczne jest to w przypadku śpiewaków operowych sopranem , którzy śpiewają na tyle wysoko, że ich samogłoski stają się bardzo trudne do rozróżnienia.

Kontrola rezonansów jest istotnym elementem techniki wokalnej znanej jako śpiew alikwotowy , w której wykonawca śpiewa niski ton podstawowy i tworzy ostre rezonanse w celu wybrania wyższych harmonicznych , dając wrażenie śpiewania kilku tonów jednocześnie.

Do wizualizacji formantów można użyć spektrogramów . W spektrogramach może być trudno odróżnić formanty od naturalnie występujących harmonicznych podczas śpiewania. Można jednak usłyszeć naturalne formanty w kształcie samogłosek poprzez techniki atonalne, takie jak frytowanie wokalne .

Estymacja formantów

Formanty, niezależnie od tego, czy są postrzegane jako rezonanse akustyczne traktu głosowego, czy jako lokalne maksima w widmie mowy, takie jak filtry pasmowoprzepustowe , są definiowane przez ich częstotliwość i szerokość widmową.

Istnieją różne metody uzyskiwania tych informacji. Częstotliwości formantów, w ich definicji akustycznej, można oszacować z widma częstotliwości dźwięku za pomocą spektrogramu (na rysunku) lub analizatora widma. Jednak do oszacowania rezonansów akustycznych traktu głosowego (tj. definicji mowy formantów) na podstawie nagrania mowy można użyć liniowego kodowania predykcyjnego . Podejście pośrednie polega na wyodrębnieniu obwiedni widmowej poprzez neutralizację częstotliwości podstawowej, a dopiero potem szukaniu lokalnych maksimów w obwiedni widmowej.

Działki formantów

Pierwsze dwa formanty są ważne przy określaniu jakości samogłosek i często mówi się, że odpowiadają wymiarom otwartym/zamkniętym i przednim/tylnym (które tradycyjnie, choć nie do końca dokładnie, były kojarzone z kształtem i pozycją języka ). . W ten sposób pierwszy formant F 1 ma wyższą częstotliwość otwartym samogłoski (na przykład [a] ) i dolną częstotliwość zamkniętym samogłoski (na przykład [I] lub [U] ); a drugi formant C 2 ma większą częstotliwość przedniej samogłoski (na przykład [i] ) i dolną częstotliwość z powrotem samogłoski (na przykład [U] ). jak widać na rys. 1.

Rys. 1 Schemat ideowy wykresu formantu

Samogłoski prawie zawsze będą miały cztery lub więcej rozróżnialnych formantów; czasami jest ich więcej niż sześć. Jednak pierwsze dwie formanty są najważniejsze w określaniu jakości samogłosek i jest to często przedstawiane w postaci wykresu pierwszej formanty względem drugiej formanty, chociaż nie jest to wystarczające do uchwycenia niektórych aspektów jakości samogłosek, takich jak zaokrąglanie. Przykład kreślenia samogłosek danego języka lub dialektu na tradycyjnym wykresie samogłosek słuchowych, a także na wykresie formantu można zobaczyć w przypadku języka norweskiego .

Podczas gdy próby uchwycenia artykulacji samogłosek przez Daniela Jonesa zaowocowały wykreśleniem samogłosek przez Międzynarodowe Stowarzyszenie Fonetyczne w kształcie trapezu, rzeczywista przestrzeń formantowa może być bardziej trójkątna. Pokazano wyidealizowany spisek formantów Jonesa i Johna Wellsa wymawiających samogłoski kardynalne IPA.

Wielu autorów zajmowało się problemem znalezienia optymalnego wyrównania pozycji samogłosek na wykresach formantu z tymi na konwencjonalnym czworoboku samogłosek. Pionierska praca Ladefogeda wykorzystywała skalę Mel, ponieważ twierdzi się, że skala ta bardziej odpowiada słuchowej skali wysokości dźwięku niż akustycznej mierze częstotliwości podstawowej wyrażonej w hercach, jak na ryc. 1. Dwie alternatywy dla skali Mel to Bark skala i skala wskaźnika ERB . Porównanie tych trzech skal przedstawia Hayward, s. 141, a wykresy formantu oparte na skali Hertza i na skali Barka porównano na s. 141. 153. Inną szeroko przyjętą strategią ulepszania wykresów formantu jest wykreślanie na osi poziomej nie wartości F2, ale różnicy między F1 i F2 dla danej samogłoski.

Formant Singera

Badania widma częstotliwości wytrenowanych śpiewaków klasycznych , zwłaszcza śpiewaków męskich, wskazują na wyraźny formant około 3000 Hz (pomiędzy 2800 a 3400 Hz), którego nie ma w mowie ani w widmach śpiewaków niewprawnych. Uważa się, że jest to związane z jednym lub kilkoma wyższymi rezonansami traktu głosowego. To właśnie ten wzrost energii przy 3000 Hz pozwala śpiewakom być słyszanym i rozumianym przez orkiestrę . Formant ten jest aktywnie rozwijany poprzez trening wokalny , np. poprzez tzw. voce di strega, czyli ćwiczenia „głosu czarownicy” i jest powodowany przez część traktu głosowego pełniącą rolę rezonatora . W muzyce klasycznej i pedagogice wokalnej zjawisko to znane jest również jako squillo .

Zobacz też

Bibliografia

Linki zewnętrzne