Nauka nienadzorowana — Unsupervised learning

Uczenie nienadzorowane to rodzaj uczenia maszynowego, w którym algorytm nie ma żadnych wstępnie przypisanych etykiet ani ocen dla danych uczących . W rezultacie nienadzorowane algorytmy uczenia muszą najpierw samodzielnie wykryć wszelkie naturalnie występujące wzorce w tym zestawie danych szkoleniowych. Typowe przykłady to klastrowanie , w którym algorytm automatycznie grupuje przykłady uczące w kategorie o podobnych cechach, oraz analizę głównych komponentów , w której algorytm znajduje sposoby kompresji zestawu danych uczących, identyfikując, które cechy są najbardziej przydatne do rozróżniania różnych przykładów uczących, oraz odrzucając resztę. Kontrastuje to z uczeniem nadzorowanym, w którym dane uczące zawierają wstępnie przypisane etykiety kategorii (często przez człowieka lub z wyników nieuczącego się algorytmu klasyfikacji). Inne pośrednie poziomy w spektrum nadzoru obejmują uczenie ze wzmocnieniem , gdzie dla każdego przykładu szkolenia dostępne są tylko wyniki liczbowe zamiast szczegółowych tagów, oraz uczenie częściowo nadzorowane, w którym tylko część danych treningowych została otagowana.

Zalety uczenia się nienadzorowanego obejmują minimalne nakłady pracy związane z przygotowaniem i audytem zestawu szkoleniowego, w przeciwieństwie do technik uczenia nadzorowanego, w których do przypisania i weryfikacji początkowych tagów wymagana jest znaczna ilość pracy ludzkiej ekspertów, a także większa swoboda w identyfikowaniu i wykorzystywaniu wcześniej niewykrytych wzorców co mogło nie zostać zauważone przez „ekspertów”. Często dzieje się to kosztem nienadzorowanych technik wymagających większej ilości danych uczących i wolniej zbieżnych do akceptowalnej wydajności, zwiększonych wymagań obliczeniowych i pamięciowych podczas procesu eksploracyjnego oraz potencjalnie większej podatności na artefakty lub anomalie w danych uczących, które mogą być oczywiście nieistotne lub uznane przez człowieka za błędne, ale algorytm uczenia nienadzorowanego przypisuje im nadmierne znaczenie.

Podejścia

Typowe rodziny algorytmów stosowanych w uczeniu nienadzorowanym obejmują: (1) grupowanie, (2) wykrywanie anomalii, (3) sieci neuronowe (należy zauważyć, że nie wszystkie sieci neuronowe są nienadzorowane; mogą być trenowane przez osoby nadzorowane, nienadzorowane, częściowo nadzorowane lub metody zbrojenia) oraz (4) modele zmiennych latentnych.

Metoda momentów

Jednym z podejść statystycznych do uczenia nienadzorowanego jest metoda momentów . W metodzie momentów nieznane parametry będące przedmiotem zainteresowania modelu są powiązane z momentami jednej lub większej liczby zmiennych losowych. Momenty te są oceniane empirycznie na podstawie dostępnych próbek danych i wykorzystywane do obliczania najbardziej prawdopodobnych rozkładów wartości dla każdego parametru. Wykazano, że metoda momentów jest skuteczna w uczeniu parametrów modeli zmiennych latentnych , gdzie oprócz obserwowanych zmiennych dostępnych w zbiorach danych uczących i wejściowych zakłada się również istnienie szeregu nieobserwowanych zmiennych latentnych i określanie kategoryzacji każdego takiego samego. Jednym z praktycznych przykładów modeli zmiennych ukrytych w uczeniu maszynowym jest modelowanie tematów , które jest modelem statystycznym do przewidywania słów (zmiennych obserwowanych) w dokumencie na podstawie tematu (zmiennej ukrytej) dokumentu. Wykazano, że metoda momentów (techniki dekompozycji tensorowej) konsekwentnie odtwarza parametry dużej klasy modeli zmiennych latentnych przy pewnych założeniach.

Algorytm oczekiwanie-maksymalizacja to kolejna praktyczna metoda uczenia ukryte modele zmiennych. Może jednak utknąć w lokalnych optimach i nie ma gwarancji, że zbiegnie się z prawdziwymi nieznanymi parametrami modelu. W przeciwieństwie do tego, stosując metodę momentów, globalna zbieżność jest gwarantowana pod pewnymi warunkami.

Sieci neuronowe

Następne pięć podrozdziałów zawiera materiał podstawowy. Więcej materiałów na poziomie średniozaawansowanym podąża za nim w Porównanie sieci i określonych sieci. Zaawansowane materiały mają własne wpisy w Wikipedii.

Zadania a metody

Skłonność zadania do stosowania metod nadzorowanych i nienadzorowanych. Separacja może być zamazana.

Tradycyjnie metody nadzorowane są używane do zadań rozpoznawania, a metody nienadzorowane są używane do zadań generatywnych. W miarę postępu, niektóre zadania wykorzystują obie metody, a niektóre zadania zmieniają się z jednej metody na drugą. Na przykład rozpoznawanie obrazów rozpoczęło się jako silnie nadzorowane, ale stało się hybrydowe dzięki zastosowaniu nienadzorowanego treningu wstępnego, a następnie ponownie przeszło w kierunku superwizji wraz z pojawieniem się wskaźników rezygnacji, relu i adaptacyjnego uczenia się.

Szkolenie

Podczas fazy uczenia się, nienadzorowana sieć próbuje naśladować dane, które otrzymuje i wykorzystuje błąd w naśladowanym wyjściu, aby poprawić się (tj. poprawić swoje wagi i błędy systematyczne). Przypomina to zachowanie mimikry dzieci podczas nauki języka. Czasami błąd wyrażany jest jako małe prawdopodobieństwo wystąpienia błędnego wyjścia lub może być wyrażany jako niestabilny stan wysokiej energii w sieci.

W przeciwieństwie do dominującego zastosowania propagacji wstecznej w metodzie nadzorowanej, metody nienadzorowane wykorzystują różne algorytmy uczenia, w tym: regułę uczenia Hopfielda, regułę uczenia Boltzmanna, rozbieżność kontrastową, czuwanie, wnioskowanie wariacyjne, maksymalne A posteriori, próbkowanie Gibbsa, propagację wsteczną błędu rekonstrukcji lub propagację wsteczną reparametryzacja stanu ukrytego. Zobacz poniższą tabelę, aby uzyskać więcej informacji.

Energia

W maszynach Boltzmanna energia pełni rolę funkcji kosztu. Funkcja energii jest makroskopową miarą stanu sieci. Ta analogia z fizyką jest inspirowana analizą Ludwiga Boltzmanna makroskopowej energii gazu z mikroskopowych prawdopodobieństw ruchu cząstek p e E/kT , gdzie k jest stałą Boltzmanna, a T jest temperaturą. W sieci RBM relacja jest p = e -E / Z, gdzie p & E zmienia się w każdym możliwym wzorcu aktywacji i Z = e -E(wzór) . Mówiąc dokładniej, p(a) = e -E(a) / Z, gdzie a jest wzorcem aktywacji wszystkich neuronów (widocznych i ukrytych). Stąd wczesne sieci neuronowe noszą nazwę Boltzmann Machine. Paul Smolensky nazywa -E Harmonią. Sieć poszukuje niskiej energii, która jest wysoką harmonią.

Sieci

Ta tabela przedstawia schematy połączeń różnych sieci nienadzorowanych, których szczegóły zostaną podane w rozdziale Porównanie sieci. Spośród sieci noszących nazwiska ludzi tylko Hopfield pracował bezpośrednio z sieciami neuronowymi. Boltzmann i Helmholtz żyli przed wynalezieniem sztucznych sieci neuronowych, ale zainspirowali zastosowane metody analityczne.

Hopfield Boltzmanna RBM Helmholtz Autokoder VAE
Sieć oparta na domenach magnetycznych w żelazie z pojedynczą, samopołączoną warstwą.
2 warstwy. Używa symetrycznych dwukierunkowych ciężarków. Zgodnie z termodynamiką Boltzmanna, indywidualne prawdopodobieństwa dają początek energii makroskopowej.
Ograniczona maszyna Boltzmanna. Jest to maszyna Boltzmanna, w której połączenia boczne w warstwie są zabronione, aby analiza była możliwa do wykonania.
Zamiast dwukierunkowego symetrycznego połączenia maszyny Boltzmanna, mamy oddzielne jednokierunkowe połączenia tworzące pętlę. Robi zarówno generowanie, jak i dyskryminację.
Sieć sprzężenia zwrotnego, której celem jest znalezienie dobrej reprezentacji warstwy środkowej swojego świata wejściowego.
Stosuje wnioskowanie wariacyjne do autokodera. Warstwa środkowa to zbiór średnich i wariancji dla rozkładów Gaussa.

Historia

1969 Perceptrons Minsky & Papert pokazuje, że perceptron bez ukrytych warstw nie działa na XOR
lata 70. (daty przybliżone) AI zima I
1974 Model magnetyczny Isinga zaproponowany przez WA Little dla poznania
1980 Fukushima wprowadza neokognitron, który później nazywa się splotową siecią neuronową. Jest używany głównie w SL, ale tutaj zasługuje na wzmiankę.
1982 Ising wariant sieci Hopfielda opisany jako CAM i klasyfikatory przez Johna Hopfielda.
1983 Wariant Isinga Maszyna Boltzmanna z neuronami probabilistycznymi opisana przez Hintona i Sejnowskiego za pracą Sheringtona i Kirkpatricka z 1975 roku.
1986 Paul Smolensky publikuje teorię harmonii, która jest RBM z praktycznie taką samą funkcją energii Boltzmanna. Smoleński nie przedstawił programu szkolenia praktycznego. Hinton zrobił w połowie 2000 roku
1995 Schmidthuber wprowadza neuron LSTM dla języków.
1995 Dayan & Hinton przedstawia maszynę Helmholtz
1995-2005 (daty przybliżone) AI zima II
2013 Kingma, Rezende i spółka wprowadzono autoenkodery wariacyjne jako bayesowskie graficzne sieci prawdopodobieństwa, z sieciami neuronowymi jako komponentami.

Określone sieci

Tutaj podkreślamy niektóre cechy każdej sieci. Ferromagnetyzm zainspirował sieci Hopfielda, maszyny Boltzmanna i RBM. Neuron odpowiada domenie żelaznej z binarnymi momentami magnetycznymi w górę i w dół, a połączenia neuronowe odpowiadają wzajemnemu wpływowi domeny. Symetryczne połączenia umożliwiają formułowanie globalnej energii. Podczas wnioskowania sieć aktualizuje każdy stan przy użyciu standardowej funkcji kroku aktywacji. Wagi symetryczne gwarantują zbieżność do stabilnego wzorca aktywacji.

Hopfield
sieci są używane jako CAM i gwarantują pewien wzorzec. Bez symetrycznych wag sieć jest bardzo trudna do analizy. Przy odpowiedniej funkcji energetycznej sieć będzie się zbiegać.
Maszyny Boltzmanna
Są to stochastyczne siatki Hopfielda. Ich wartość stanu jest próbkowana z tego pliku PDF w następujący sposób: załóżmy, że neuron binarny odpala z prawdopodobieństwem Bernoulliego p(1) = 1/3 i zatrzymuje się przy p(0) = 2/3. Pobieramy z niej próbkę, biorąc losową liczbę y o rozkładzie JEDNOLITYM i wstawiając ją do funkcji odwróconego skumulowanego rozkładu, która w tym przypadku jest funkcją kroku z progiem 2/3. Funkcja odwrotna = { 0 jeśli x <= 2/3, 1 jeśli x > 2/3 }
Helmholtz
To są wczesne inspiracje dla Variational Auto Encoders. To dwie sieci połączone w jedną — wagi do przodu obsługują rozpoznawanie, a wagi wsteczne działają na wyobraźnię. Jest to prawdopodobnie pierwsza sieć, która robi obie te rzeczy. Helmholtz nie zajmował się uczeniem maszynowym, ale zainspirował pogląd „statystycznego silnika wnioskowania, którego funkcją jest wnioskowanie prawdopodobnych przyczyn danych sensorycznych” (3). stochastyczny neuron binarny wyprowadza prawdopodobieństwo, że jego stan wynosi 0 lub 1. Dane wejściowe zwykle nie są uważane za warstwę, ale w trybie generowania maszyny Helmholtza warstwa danych otrzymuje dane wejściowe z warstwy środkowej ma w tym celu oddzielne wagi, więc jest uważany za warstwę. Stąd ta sieć ma 3 warstwy.
Autokoder wariacyjny
Są one inspirowane maszynami Helmholtza i łączą sieć prawdopodobieństwa z sieciami neuronowymi. Autoencoder to 3-warstwowa sieć CAM, w której warstwa środkowa ma być wewnętrzną reprezentacją wzorców wejściowych. Koder sieć neuronowa jest rozkład prawdopodobieństwa P φ (Z podane x) i sieć dekodera P θ (X, zakładając, Z). Wagi są nazywane phi & theta, a nie W i V, jak u Helmholtza – różnica kosmetyczna. Te 2 sieci mogą być w pełni połączone lub korzystać z innego schematu NN.

Porównanie sieci

Hopfield Boltzmanna RBM Helmholtz Autokoder VAE
użycie i uwagi CAM, problem komiwojażera KRZYWKA. Swoboda połączeń sprawia, że ​​sieć ta jest trudna do analizy. rozpoznawanie wzorców (MNIST, rozpoznawanie mowy) wyobraźnia, mimikra język: kreatywne pisanie, tłumaczenie. Wizja: poprawa rozmazanych obrazów generować realistyczne dane
neuron deterministyczny stan binarny. Aktywacja = { 0 (lub -1) jeśli x jest ujemne, 1 w przeciwnym razie } stochastyczny neuron binarny Hopfielda stochastyczny binarny. Rozszerzony do wartości rzeczywistych w połowie 2000 roku stochastyczny, binarny, sigmoidalny język: LSTM. wizja: lokalne pola receptywne. zwykle realnie wyceniana aktywacja relu. Neurony warstwy środkowej kodują średnie i wariancje dla Gaussa. W trybie wykonywania (wnioskowanie) dane wyjściowe warstwy środkowej są próbkowanymi wartościami z Gaussa.
znajomości 1-warstwowa o symetrycznych gramaturach. Brak połączeń wewnętrznych. 2-warstwowe. 1-ukryty i 1-widoczny. symetryczne wagi. <-- to samo.
brak połączeń bocznych w warstwie.
3-warstwowe: ciężarki asymetryczne. 2 sieci połączone w 1. 3-warstwowe. Dane wejściowe są uważane za warstwę, mimo że nie mają wag przychodzących. warstwy rekurencyjne dla NLP. sprzężenia wyprzedzające dla widzenia. wejście i wyjście mają taką samą liczbę neuronów. 3-warstwowe: wejście, koder, dekoder próbnika dystrybucji. próbnik nie jest uważany za warstwę (e)
wnioskowanie i energia energia jest dana miarą prawdopodobieństwa Gibbsa : ← to samo ← to samo zminimalizować rozbieżność KL wnioskowanie jest tylko informacją zwrotną. poprzednie sieci UL biegły do ​​przodu I do tyłu Minimalizuj błąd = błąd rekonstrukcji - KLD
szkolenie Δw ij = s i *s j , dla +1/-1 neuron Δw ij = e*(p ij - p' ij ). Wynika to z minimalizacji KLD. e = wskaźnik uczenia się, p' = przewidywany i p = rzeczywisty rozkład. dywergencja kontrastowa z próbkowaniem Gibbsa Trening budzenia-snu 2 fazy wstecz propagować błąd rekonstrukcji ponownie sparametryzować stan ukryty dla backprop
siła przypomina układy fizyczne, więc dziedziczy ich równania <--- to samo. ukryte neurony działają jako wewnętrzna reprezentacja świata zewnętrznego szybszy, bardziej praktyczny program szkoleniowy niż maszyny Boltzmann umiarkowanie anatomiczny. analizowalne z teorią informacji i mechaniką statystyczną
słabość ciężko trenować ze względu na połączenia boczne

Hebbian Learning, ART, SOM
Klasycznym przykładem nienadzorowanego uczenia się w badaniu sieci neuronowych jest zasada Donalda Hebba , to znaczy neurony, które razem aktywują się, łączą się ze sobą. W uczeniu Hebbowskim połączenie jest wzmacniane niezależnie od błędu, ale jest wyłącznie funkcją zbieżności potencjałów czynnościowych między dwoma neuronami. Podobna wersja, która modyfikuje wagi synaptyczne, uwzględnia czas między potencjałami czynnościowymi ( plastyczność zależna od czasu skoku lub STDP). Postawiono hipotezę, że uczenie Hebbowskie leży u podstaw szeregu funkcji poznawczych, takich jak rozpoznawanie wzorców i uczenie się przez doświadczenie.

Wśród modeli sieci neuronowych w algorytmach uczenia nienadzorowanego powszechnie stosuje się mapę samoorganizującą się (SOM) i adaptacyjną teorię rezonansu (ART). SOM jest organizacją topograficzną, w której pobliskie lokalizacje na mapie reprezentują dane wejściowe o podobnych właściwościach. Model ART umożliwia zmianę liczby klastrów w zależności od wielkości problemu i pozwala użytkownikowi kontrolować stopień podobieństwa między członkami tych samych klastrów za pomocą zdefiniowanej przez użytkownika stałej zwanej parametrem czujności. Sieci ART są wykorzystywane do wielu zadań rozpoznawania wzorców, takich jak automatyczne rozpoznawanie celu i przetwarzanie sygnałów sejsmicznych.

Zobacz też

Bibliografia

Dalsza lektura