Wieloliniowe uczenie się podprzestrzeni - Multilinear subspace learning
Wieloliniowe uczenie się podprzestrzeni to podejście do redukcji wymiarowości. Redukcję wymiarowości można przeprowadzić na tensorze danych, którego obserwacje zostały wektoryzowane i zorganizowane w tensor danych, lub którego obserwacje są macierzami połączonymi w tensor danych. Oto kilka przykładów tensorów danych, których obserwacje są zwektoryzowane lub których obserwacje są macierzami połączonymi w obrazy tensorów danych (2D / 3D), sekwencje wideo (3D / 4D) i sześciany hiperspektralne (3D / 4D).
Mapowanie z wielowymiarowej przestrzeni wektorowej do zbioru niższych wymiarów przestrzeni wektorowej jest rzutowaniem wieloliniowym. Gdy obserwacje są zachowane w tej samej strukturze organizacyjnej, jaką zapewnia czujnik; jako macierze lub tensory wyższego rzędu, ich reprezentacje są obliczane przez wykonanie N wielokrotnych rzutów liniowych.
Wieloliniowe algorytmy uczenia się podprzestrzeni to uogólnienia wyższego rzędu liniowych metod uczenia się podprzestrzeni , takich jak analiza składowych głównych (PCA), analiza składowych niezależnych (ICA), liniowa analiza dyskryminacyjna (LDA) i analiza korelacji kanonicznej (CCA).
tło
Wraz z postępem w technologii pozyskiwania i przechowywania danych , duże zbiory danych (lub ogromne zbiory danych) są generowane codziennie w szerokim zakresie powstających aplikacji. Większość tych dużych zbiorów danych ma charakter wielowymiarowy. Ponadto są one zwykle bardzo wysokowymiarowe , z dużą redundancją i zajmują tylko część przestrzeni wejściowej. Dlatego redukcja wymiarowości jest często stosowana do mapowania danych wielowymiarowych do przestrzeni o niewielkich wymiarach, zachowując jednocześnie jak najwięcej informacji.
Liniowe algorytmy uczenia się podprzestrzeni to tradycyjne techniki redukcji wymiarowości, które przedstawiają dane wejściowe jako wektory i rozwiązują w celu uzyskania optymalnego liniowego odwzorowania w przestrzeni o niższych wymiarach. Niestety, często stają się one nieadekwatne w przypadku ogromnych danych wielowymiarowych. Dają one wektory o bardzo dużych wymiarach, prowadzą do oszacowania dużej liczby parametrów.
Wieloliniowe uczenie się podprzestrzeni wykorzystuje różne typy narzędzi do analizy tensorów danych w celu redukcji wymiarowości. Wieloliniowe uczenie się podprzestrzeni można zastosować do obserwacji, których pomiary zostały wektoryzowane i zorganizowane w tensor danych lub których pomiary są traktowane jako macierz i łączone w tensor.
Algorytmy
Wieloliniowa analiza składowych głównych
Historycznie, wieloliniowa analiza składowych głównych była określana jako „M-mode PCA”, termin, który został ukuty przez Petera Kroonenberga. W 2005 roku Vasilescu i Terzopoulos wprowadzili terminologię Multilinear PCA jako sposób na lepsze rozróżnienie między wieloliniowymi dekompozycjami tensorowymi, które obliczały statystyki drugiego rzędu związane z każdym trybem (osią) tensora danych, a następnie prace nad wieloliniową niezależną analizą składników, która obliczała statystyki wyższego rzędu związane z każdym trybem / osią tensora. MPCA jest rozszerzeniem PCA .
Wieloliniowa niezależna analiza komponentów
Wieloliniowa niezależna analiza składowych jest rozszerzeniem ICA .
Wieloliniowa liniowa analiza dyskryminacyjna
- Wieloliniowe rozszerzenie LDA
- Oparte na TTP: Analiza dyskryminacyjna z reprezentacją tensorową (DATER)
- Oparte na TTP: Ogólna tensorowa analiza dyskryminacyjna (GTDA)
- Na podstawie TVP: Nieskorelowana wieloliniowa analiza dyskryminacyjna (UMLDA)
Wieloliniowa analiza korelacji kanonicznych
- Wieloliniowe rozszerzenie CCA
- Oparte na TTP: Tensor Canonical Correlation Analysis (TCCA)
- Na podstawie TVP: Wieloliniowa kanoniczna analiza korelacji (MCCA)
- Na podstawie TVP: Bayesian Multilinear Canonical Correlation Analysis (BMTF)
- TTP jest bezpośrednim rzutem wysokowymiarowego tensora na niskowymiarowy tensor tego samego rzędu, przy użyciu macierzy projekcji N dla tensora N -tego rzędu. Można to wykonać w N krokach, z każdym krokiem wykonującym mnożenie macierzy tensorowej (iloczyn). Do N kroki są wymienne. Ta projekcja jest rozszerzeniem rozkładu wartości osobliwych wyższego rzędu (HOSVD) na uczenie się podprzestrzeni. Stąd jego pochodzenie sięga rozkładu Tuckera w latach 60.
- TVP to bezpośrednie odwzorowanie wielowymiarowego tensora na niskowymiarowy wektor, który jest również określany jako rzutowanie pierwszego rzędu. Gdy TVP rzutuje tensor na wektor, można go postrzegać jako wielokrotne rzuty z tensora na skalar. Zatem TVP tensora do wektora wymiarowego P składa się z rzutów P z tensora do skalara. Rzutowanie z tensora na skalar jest elementarnym rzutem wieloliniowym (EMP). W EMP tensor jest rzutowany do punktu przez N wektorów rzutowania. Jest to rzut tensora na pojedynczą linię (co daje skalar), z jednym wektorem rzutowania w każdym trybie. Zatem TVP obiektu tensorowego do wektora w P- wymiarowej przestrzeni wektorowej składa się z P EMP. Ta projekcja jest przedłużeniem rozkładu kanonicznego , znanego również jako rozkład czynników równoległych (PARAFAC).
Typowe podejście w MSL
Istnieje N zestawów parametrów do rozwiązania, po jednym w każdym trybie. Rozwiązanie jednego zestawu często zależy od innych zestawów (z wyjątkiem sytuacji, gdy N = 1 , przypadek liniowy). Dlatego stosowana jest suboptymalna procedura iteracyjna w programie.
- Inicjalizacja projekcji w każdym trybie
- Dla każdego trybu ustalenie rzutowania we wszystkich pozostałych trybach i rozwiązanie rzutowania w bieżącym trybie.
- Wykonaj optymalizację trybu dla kilku iteracji lub do zbieżności.
Wynika to z naprzemiennej metody najmniejszych kwadratów do wieloczynnikowej analizy danych.
Plusy i minusy
Zalety MSL w porównaniu z tradycyjnym liniowym modelowaniem podprzestrzeni, we wspólnych domenach, w których reprezentacja jest naturalnie nieco tensoryczna, to:
- MSL zachowuje strukturę i korelację, jaką miały oryginalne dane przed projekcją, działając na naturalnej tensorycznej reprezentacji danych wielowymiarowych.
- MSL może nauczyć się bardziej zwartych reprezentacji niż jego liniowy odpowiednik; innymi słowy, musi oszacować znacznie mniejszą liczbę parametrów. W ten sposób MSL może wydajniej obsługiwać duże dane tensorowe, wykonując obliczenia na reprezentacji o wielu mniejszych wymiarach. Prowadzi to do mniejszego zapotrzebowania na zasoby obliczeniowe.
Jednak algorytmy MSL są iteracyjne i nie gwarantują zbieżności; tam, gdzie algorytm MSL jest zbieżny, może to zrobić przy lokalnym optimum . (W przeciwieństwie do tradycyjnych technik liniowego modelowania podprzestrzeni często dają dokładne rozwiązanie w postaci zamkniętej). Problemy z konwergencją MSL można często złagodzić, wybierając odpowiednią wymiarowość podprzestrzeni i stosując odpowiednie strategie inicjalizacji, zakończenia i kolejności, w jakiej prognozy są rozwiązane.
Zasoby pedagogiczne
- Badanie : Przegląd wieloliniowego uczenia się podprzestrzeni dla danych tensorowych ( wersja z otwartym dostępem ).
- Wykład : Wykład wideo na temat UMPCA na 25. Międzynarodowej Konferencji na temat uczenia maszynowego (ICML 2008).
Kod
- MATLAB Tensor Toolbox firmy Sandia National Laboratories .
- Algorytm MPCA napisany w Matlabie (w tym MPCA + LDA) .
- Algorytm UMPCA napisany w Matlabie (wraz z danymi) .
- Algorytm UMLDA napisany w Matlabie (wraz z danymi) .
Zestawy danych tensorowych
- Dane chodu 3D (tensory trzeciego rzędu): 128x88x20 (21,2M) ; 64 x 44 x 20 (9,9 M) ; 32x22x10 (3,2 M) ;
Zobacz też
- Rozkład CP
- Redukcja wymiaru
- Algebra wieloliniowa
- Wieloliniowa analiza składowych głównych
- Napinacz
- Rozkład tensorowy
- Oprogramowanie Tensor
- Rozkład Tuckera