Wykrywanie aktywności głosowej - Voice activity detection

Wykrywanie aktywności głosowej ( VAD ), znane również jako wykrywanie aktywności mowy lub wykrywanie mowy , to wykrywanie obecności lub nieobecności mowy ludzkiej, stosowane w przetwarzaniu mowy . Główne zastosowania VAD to kodowanie i rozpoznawanie mowy . Może ułatwić przetwarzanie mowy, a także może być używany do dezaktywacji niektórych procesów podczas sesji audio bez mowy: pozwala uniknąć niepotrzebnego kodowania/transmisji pakietów ciszy w aplikacjach Voice over Internet Protocol (VoIP), oszczędzając na obliczeniach i na przepustowość sieci .

VAD to ważna technologia umożliwiająca realizację różnych aplikacji opartych na mowie. Dlatego opracowano różne algorytmy VAD, które zapewniają różne funkcje i kompromisy między opóźnieniem , czułością , dokładnością i kosztem obliczeniowym. Niektóre algorytmy VAD zapewniają również dalszą analizę, na przykład, czy mowa jest dźwięczna , bezdźwięczna czy przedłużona . Wykrywanie aktywności głosowej jest zwykle niezależne od języka.

Po raz pierwszy zbadano go pod kątem zastosowania w systemach interpolacji mowy z przydziałem czasu (TASI).

Przegląd algorytmów

Typowy projekt algorytmu VAD jest następujący:

  1. Najpierw może nastąpić etap redukcji szumów, np. poprzez odejmowanie widmowe .
  2. Następnie niektóre cechy lub wielkości są obliczane z części sygnału wejściowego.
  3. Zasada Klasyfikacja jest stosowana do klasyfikowania przekrój jak wystąpieniu lub braku mowy - Często klasyfikacji reguły stwierdzi, gdy wartość przekracza pewną wartość progową.

W tej sekwencji może występować pewne sprzężenie zwrotne, w którym decyzja VAD jest wykorzystywana do poprawy oceny szumu na etapie redukcji szumu lub do adaptacyjnej zmiany progu(ów). Te operacje sprzężenia zwrotnego poprawiają wydajność VAD w niestacjonarnym szumie (tj. gdy szum jest bardzo zróżnicowany).

Reprezentatywny zestaw ostatnio opublikowanych metod VAD formułuje regułę decyzyjną na podstawie ramka po ramce, wykorzystując chwilowe miary odległości rozbieżności między mową a hałasem. Różne miary stosowane w metodach VAD obejmują nachylenie widma , współczynniki korelacji, logarytmiczny współczynnik wiarygodności, cepstralny, ważony cepstralny i zmodyfikowane miary odległości.

Niezależnie od wyboru algorytmu VAD, należy dokonać kompromisu między wykrywaniem głosu jako szumu, a szumem wykrywanym jako głos (pomiędzy fałszywie pozytywnym a fałszywie negatywnym ). VAD działający w telefonie komórkowym musi być w stanie wykryć mowę w obecności wielu bardzo różnych rodzajów dźwięków tła akustycznego. W tych trudnych warunkach wykrywania często preferowane jest, aby VAD był odporny na awarie , wskazując mowę wykrytą, gdy decyzja jest wątpliwa, aby zmniejszyć ryzyko utraty segmentów mowy. Największą trudnością w wykrywaniu mowy w tym środowisku są bardzo niskie współczynniki sygnału do szumu (SNR). Może być niemożliwe odróżnienie mowy od hałasu przy użyciu prostych technik wykrywania poziomu, gdy części wypowiedzi mowy są ukryte pod hałasem.

Aplikacje

W przypadku szerokiego zakresu zastosowań, takich jak cyfrowe radio mobilne, DSVD ( Digital Simultaneous Voice and Data ) lub przechowywanie mowy, pożądane jest zapewnienie nieciągłej transmisji parametrów kodowania mowy. Zalety mogą obejmować niższe średnie zużycie energii w telefonach komórkowych, wyższą średnią przepływność dla usług równoczesnych, takich jak transmisja danych, lub większą pojemność chipów pamięci masowej . Poprawa zależy jednak głównie od odsetka pauz podczas mowy i wiarygodności VAD stosowanej do wykrywania tych interwałów. Z jednej strony korzystny jest niski procent aktywności mowy. Z drugiej strony obcinanie, czyli utratę milisekund aktywnej mowy, powinno być zminimalizowane, aby zachować jakość. Jest to kluczowy problem dla algorytmu VAD w warunkach dużego hałasu.

Wykorzystaj w telemarketingu

Jednym z kontrowersyjnych zastosowań VAD jest połączenie z dialerami predykcyjnymi używanymi przez firmy telemarketingowe. Aby zmaksymalizować produktywność agentów, firmy telemarketingowe konfigurują dialery predykcyjne, aby dzwonić na więcej numerów, niż mają dostępnych agentów, wiedząc, że większość połączeń kończy się albo w trybie „Dzwonek – brak odpowiedzi” albo w automatycznych sekretarkach. Kiedy osoba odpowiada, zwykle mówi krótko („ Cześć ”, „ Dobry wieczór ” itp.), po czym następuje krótka chwila ciszy. Wiadomości z automatycznej sekretarki to zwykle 3–15 sekund ciągłej mowy. Poprzez prawidłowe ustawienie parametrów VAD dialery mogą określić, czy osoba lub maszyna odebrała połączenie, a jeśli jest to osoba, przekierować połączenie do dostępnego agenta. Jeśli wykryje wiadomość z automatycznej sekretarki, dialer rozłącza się. Często, nawet gdy system poprawnie wykryje osobę odbierającą połączenie, agent może nie być dostępny, co skutkuje „ cichym połączeniem ”. Monitorowanie połączeń z wielosekundową wiadomością typu „proszę, powiedz, kim jesteś, a może odbiorę telefon”, może udaremnić takie automatyczne połączenia.

Ocena wydajności

Aby ocenić VAD, jego wyniki przy użyciu nagrań testowych są porównywane z wynikami „idealnego” VAD – tworzonego przez ręczne adnotowanie obecności lub braku głosu w nagraniach. Wydajność VAD jest powszechnie oceniana na podstawie następujących czterech parametrów:

  • FEC (Front End Clipping): obcinanie wprowadzane w przejściu od hałasu do aktywności mowy;
  • MSC (Mid Speech Clipping): przycinanie spowodowane mową błędnie sklasyfikowaną jako hałas;
  • OVER: hałas interpretowany jako mowa, ponieważ flaga VAD pozostaje aktywna podczas przechodzenia od aktywności mowy do hałasu;
  • NDS (Noise Detected as Speech): hałas interpretowany jako mowa w okresie ciszy.

Chociaż opisana powyżej metoda dostarcza użytecznych obiektywnych informacji dotyczących działania VAD, jest tylko przybliżoną miarą subiektywnego efektu. Na przykład, efekty obcinania sygnału mowy mogą być czasami ukryte przez obecność szumu tła, w zależności od modelu wybranego do syntezy szumu komfortu, tak więc niektóre obcinanie mierzone w obiektywnych testach jest w rzeczywistości niesłyszalne. Dlatego ważne jest przeprowadzenie subiektywnych testów na VAD, których głównym celem jest upewnienie się, że postrzegane obcinanie jest akceptowalne. Ten rodzaj testu wymaga pewnej liczby słuchaczy, aby ocenić nagrania zawierające wyniki przetwarzania testowanych VAD-ów, oceniając kilka sekwencji mowy na podstawie następujących cech:

  • Jakość;
  • trudności ze zrozumieniem;
  • Słyszalność przycinania.

Znaki te są następnie wykorzystywane do obliczania średnich wyników dla każdej z wymienionych powyżej cech, zapewniając w ten sposób globalne oszacowanie zachowania testowanego VAD.

Podsumowując, podczas gdy metody obiektywne są bardzo przydatne na początkowym etapie oceny jakości VAD, metody subiektywne są bardziej istotne. Ponieważ wymagają one udziału kilku osób przez kilka dni, co zwiększa koszty, stosuje się je zazwyczaj tylko wtedy, gdy propozycja ma zostać ujednolicona.

Realizacje

  • Jednym z wczesnych standardów VAD jest ten opracowany przez British Telecom do użytku w ogólnoeuropejskiej usłudze cyfrowej telefonii komórkowej w 1991 roku. Wykorzystuje filtrowanie odwrotne wyszkolone na segmentach niemowych w celu odfiltrowania szumu tła, dzięki czemu może bardziej niezawodnie korzystać z prosty próg mocy, aby zdecydować, czy głos jest obecny.
  • Standard G.729 oblicza następujące cechy dla swojego VAD: częstotliwości widmowe linii , energia pełnego pasma, energia dolnego pasma (<1 kHz) i współczynnik przejścia przez zero . Stosuje prostą klasyfikację przy użyciu ustalonej granicy decyzyjnej w przestrzeni określonej przez te cechy, a następnie stosuje wygładzanie i korekcję adaptacyjną w celu poprawy oszacowania.
  • Standard GSM obejmuje dwie opcje VAD opracowane przez ETSI . Opcja 1 oblicza SNR w dziewięciu pasmach i stosuje próg do tych wartości. Opcja 2 oblicza różne parametry: moc kanału, metryki głosu i moc szumów. Następnie wyznacza progi metryki głosu przy użyciu progu, który zmienia się zgodnie z oszacowanym SNR.
  • Speex biblioteka kompresji dźwięku wykorzystuje procedurę o nazwie Lepsza Minima Controlled Recursive uśredniania , który wykorzystuje wygładzonej reprezentacji widmowej mocy, a następnie patrzy na minimów wygładzonej periodogramu . Od wersji 1.2 został zastąpiony przez coś, co autor nazwał kludge .
  • Lingua Libre , narzędzie Wikimedia i projekt dokumentacji języka , wykorzystujący VAD do nagrywania wielu wymowy w krótkim czasie.

Zobacz też

Bibliografia