Model generatywny - Generative model

W klasyfikacji statystycznej dwa główne podejścia nazywane są podejściem generatywnym i podejściem dyskryminacyjnym . Te klasyfikatory obliczają różnymi podejściami, różniącymi się stopniem modelowania statystycznego . Terminologia jest niespójna, ale można wyróżnić trzy główne typy, za Jebarą (2004) :

  1. Generatywne modelu jest statystycznego modelu z łącznego rozkładu prawdopodobieństwa zadanego zmienna zaobserwować X i zmienną docelową Y ;
  2. Rozróżniania modelem jest model warunkowego prawdopodobieństwa tarczy Y , podane obserwacja x ; oraz
  3. Klasyfikatory obliczone bez użycia modelu prawdopodobieństwa są również określane luźno jako „dyskryminacyjne”.

Rozróżnienie między tymi dwoma ostatnimi klasami nie jest konsekwentnie dokonywane; Jebara (2004) odnosi się do tych trzech klasach nauki generatywnej , uczenia się warunkowego i dyskryminacyjnej nauki , ale Ng & Jordan (2002) wyróżnić tylko dwie klasy, nazywając je klasyfikatorów generatywne (Joint Distribution) i dyskryminacyjną klasyfikatorów (rozkład warunkowy lub Nie dystrybucję) , nie rozróżniając tych dwóch ostatnich klas. Analogicznie, klasyfikator oparty na modelu generatywnym jest klasyfikatorem generatywnym , a klasyfikator oparty na modelu dyskryminacyjnym jest klasyfikatorem dyskryminacyjnym , chociaż termin ten odnosi się również do klasyfikatorów, które nie są oparte na modelu.

Standardowe przykłady każdego z nich, z których wszystkie są klasyfikatorami liniowymi , to:

W zastosowaniu do klasyfikacji chcemy przejść od obserwacji x do etykiety y (lub rozkładu prawdopodobieństwa na etykietach). Można to obliczyć bezpośrednio, bez użycia rozkładu prawdopodobieństwa ( klasyfikator bez dystrybucji ); można oszacować prawdopodobieństwo etykiety danej obserwacji ( model dyskryminacyjny ) i na tej podstawie dokonać klasyfikacji; lub można oszacować łączny rozkład ( model generatywny ), z tego obliczyć prawdopodobieństwo warunkowe , a następnie na tym oprzeć klasyfikację. Są one coraz bardziej pośrednie, ale coraz bardziej probabilistyczne, co pozwala na zastosowanie większej wiedzy dziedzinowej i teorii prawdopodobieństwa. W praktyce stosuje się różne podejścia, w zależności od konkretnego problemu, a hybrydy mogą łączyć mocne strony wielu podejść.

Definicja

Alternatywny podział definiuje je symetrycznie jako:

  • generatywne modelem jest model warunkowego prawdopodobieństwa zaobserwowania X , ponieważ celem Y symbolicznie
  • rozróżniania modelem jest model warunkowego prawdopodobieństwa docelowej Y , podane obserwacja x symbolicznie

Niezależnie od precyzyjnej definicji terminologia jest konstytucyjna, ponieważ model generatywny może być używany do „generowania” losowych instancji ( wyników ) obserwacji i celu lub obserwacji x przy założeniu wartości docelowej y , podczas gdy model dyskryminacyjny lub dyskryminacyjny klasyfikatora (bez modelu) można użyć do „dyskryminacji” wartości zmiennej docelowej Y , przy danej obserwacji x . Różnica między „ rozróżniać ” (rozróżniać) a „ klasyfikować ” jest subtelna i nie są one konsekwentnie rozróżniane. (Termin „klasyfikator dyskryminacyjny” staje się pleonazmem, gdy „dyskryminacja” jest równoważna „klasyfikacji”).

Termin „model generatywny” jest również używany do opisu modeli, które generują wystąpienia zmiennych wyjściowych w sposób, który nie ma wyraźnego związku z rozkładami prawdopodobieństwa w potencjalnych próbach zmiennych wejściowych. Przykładami tej klasy modeli generatywnych są generatywne sieci kontradyktoryjne, które są oceniane przede wszystkim na podstawie podobieństwa poszczególnych wyników do potencjalnych danych wejściowych. Takie modele nie są klasyfikatorami.

Relacje między modelami

W zastosowaniu do klasyfikacji obserwowalna X jest często zmienną ciągłą , docelowa Y jest ogólnie zmienną dyskretną składającą się ze skończonego zbioru etykiet, a prawdopodobieństwo warunkowe można również interpretować jako (niedeterministyczną) funkcję celu , biorąc pod uwagę X jako wejścia i Y jako wyjścia.

Mając skończony zbiór etykiet, dwie definicje „modelu generatywnego” są ze sobą ściśle powiązane. Model rozkładu warunkowego jest modelem rozkładu każdej etykiety, a model rozkładu łącznego jest równoważny modelowi rozkładu wartości etykiety wraz z rozkładem obserwacji danej etykiety, ; symbolicznie, Tak więc, o ile model łącznego rozkładu prawdopodobieństwa jest bardziej informacyjny niż model rozkładu etykiety (ale bez ich względnych częstości), jest to stosunkowo mały krok, stąd nie zawsze są one rozróżniane.

Biorąc pod uwagę model rozkładu łącznego , rozkład poszczególnych zmiennych można obliczyć jako rozkłady krańcowe i (uważając X za ciągłe, a więc całkujące po nim, a Y za dyskretne, a więc sumujące się po nim), a każdy rozkład warunkowy może być obliczone z definicji prawdopodobieństwa warunkowego : i .

Mając model jednego prawdopodobieństwa warunkowego i oszacowane rozkłady prawdopodobieństwa dla zmiennych X i Y , oznaczonych i , można oszacować przeciwne prawdopodobieństwo warunkowe stosując regułę Bayesa :

Na przykład mając model generatywny dla , można oszacować:

i mając model dyskryminacyjny dla , można oszacować:

Należy zauważyć, że reguła Bayesa (obliczanie jednego prawdopodobieństwa warunkowego w odniesieniu do drugiego) i definicja prawdopodobieństwa warunkowego (obliczanie prawdopodobieństwa warunkowego w odniesieniu do łącznego rozkładu) również są często łączone.

Kontrast z klasyfikatorami dyskryminacyjnymi

Algorytm generatywny modeluje sposób generowania danych w celu kategoryzacji sygnału. Zadaje pytanie: na podstawie moich założeń generacji, która kategoria najprawdopodobniej wygeneruje ten sygnał? Algorytm dyskryminacyjny nie dba o to, jak dane zostały wygenerowane, po prostu kategoryzuje dany sygnał. Tak więc algorytmy dyskryminacyjne próbują uczyć się bezpośrednio z danych, a następnie próbują je klasyfikować. Z drugiej strony algorytmy generatywne próbują dowiedzieć się, na co można później przekształcić, aby sklasyfikować dane. Jedną z zalet algorytmów generatywnych jest możliwość generowania nowych danych podobnych do istniejących. Z drugiej strony algorytmy dyskryminacyjne generalnie dają lepszą wydajność w zadaniach klasyfikacyjnych.

Pomimo tego, że modele dyskryminacyjne nie muszą modelować rozkładu obserwowanych zmiennych, nie mogą generalnie wyrażać złożonych relacji między zmiennymi obserwowanymi a zmiennymi docelowymi. Niekoniecznie sprawdzają się lepiej niż modele generatywne w zadaniach klasyfikacji i regresji . Te dwie klasy są postrzegane jako uzupełniające się lub jako różne poglądy na tę samą procedurę.

Głębokie modele generatywne

Wraz z pojawieniem się głębokiego uczenia, nowa rodzina metod, zwana głębokimi modelami generatywnymi (DGM), powstaje dzięki połączeniu modeli generatywnych i głębokich sieci neuronowych. Sztuczka DGM polega na tym, że sieci neuronowe używane jako modele generatywne mają liczbę parametrów znacznie mniejszą niż ilość danych używanych do ich uczenia, więc modele są zmuszone do odkrywania i efektywnej internalizacji istoty danych w celu wygenerowania to.

Popularne DGM obejmują wariacyjne autoenkodery (VAE), generatywne sieci kontradyktoryjne (GAN) i modele auto-regresywne. Istnieje tendencja do budowania dużych, głębokich modeli generatywnych. Na przykład GPT-3 i jego poprzednik GPT-2 do autoregresyjnych modeli neuronowych, BigGAN i VQ-VAE do generowania obrazu, Optimus jako największy model językowy VAE i szafa grająca jako największy model VAE do generowania muzyki.

DGM mają wiele zastosowań krótkoterminowych. Ale na dłuższą metę mają potencjał do automatycznego uczenia się naturalnych cech zestawu danych, czy to kategorii, wymiarów, czy czegoś zupełnie innego.

Rodzaje

Modele generatywne

Rodzaje modeli generatywnych to:

Jeśli obserwowane dane są rzeczywiście próbkowane z modelu generatywnego, powszechną metodą jest dopasowanie parametrów modelu generatywnego w celu maksymalizacji prawdopodobieństwa danych . Ponieważ jednak większość modeli statystycznych jest tylko przybliżeniami rzeczywistego rozkładu, jeśli zastosowanie modelu polega na wnioskowaniu o podzbiorze zmiennych uzależnionych od znanych wartości innych, to można argumentować, że przybliżenie zawiera więcej założeń niż jest to konieczne do rozwiązania problemu problem pod ręką. W takich przypadkach bardziej dokładne może być modelowanie warunkowych funkcji gęstości bezpośrednio przy użyciu modelu dyskryminacyjnego (patrz poniżej), chociaż szczegóły specyficzne dla aplikacji będą ostatecznie decydować o tym, które podejście jest najbardziej odpowiednie w danym przypadku.

Modele dyskryminacyjne

Przykłady

Prosty przykład

Załóżmy, że dane wejściowe to , zestaw etykiet dla is i są następujące 4 punkty danych:

Dla powyższych danych estymacja łącznego rozkładu prawdopodobieństwa z miary empirycznej będzie następująca:

podczas gdy będą następujące:

Generowanie tekstu

Shannon (1948) podaje przykład, w którym tabela częstości angielskich par słów jest używana do wygenerowania zdania rozpoczynającego się od „reprezentowanie i szybko jest dobrem”; co nie jest poprawnym angielskim, ale które będzie coraz bardziej przybliżone, gdy tabela zostanie przeniesiona z par słów na tryplety itp.

Zobacz też

Uwagi

Bibliografia

Zewnętrzne linki