Wyodrębnianie funkcji - Feature extraction

W uczenia maszynowego , rozpoznawania wzorców i przetwarzania obrazu , ekstrakcji cecha zaczyna się od początkowego zestawu danych pomiarowych i buduje pochodzi wartości ( funkcje ) ma być pouczające i nie-zbędne, ułatwiając późniejsze uczenia i generalizacji kroki, a w niektórych przypadkach prowadzące lepszych ludzkich interpretacji. Ekstrakcja cech jest związana z redukcją wymiarowości .

Gdy dane wejściowe do algorytmu są zbyt duże do przetworzenia i podejrzewa się, że są one zbędne (np. Ten sam pomiar w stopach i metrach lub powtarzalność obrazów przedstawionych w pikselach ), można je przekształcić w zredukowany zbiór od funkcji (nazywane również do wektora cech ). Określenie podzbioru cech początkowych nazywa się wyborem cech . Oczekuje się, że wybrane funkcje będą zawierać odpowiednie informacje z danych wejściowych, tak aby żądane zadanie można było wykonać przy użyciu tej zredukowanej reprezentacji zamiast pełnych danych początkowych.

Generał

Wyodrębnianie funkcji obejmuje zmniejszenie liczby zasobów wymaganych do opisania dużego zestawu danych. Podczas wykonywania analizy złożonych danych jeden z głównych problemów wynika z liczby zaangażowanych zmiennych. Analiza z dużą liczbą zmiennych na ogół wymaga dużej ilości pamięci i mocy obliczeniowej, a także może spowodować, że algorytm klasyfikacji będzie nadużywany do uczących próbek i słabo uogólniał na nowe próbki. Wyodrębnianie cech to ogólny termin określający metody konstruowania kombinacji zmiennych w celu obejścia tych problemów, jednocześnie opisując dane z wystarczającą dokładnością. Wielu praktyków uczenia maszynowego uważa, że ​​odpowiednio zoptymalizowane wyodrębnianie cech jest kluczem do efektywnej konstrukcji modelu.

Wyniki można poprawić za pomocą skonstruowanych zestawów funkcji zależnych od aplikacji, zwykle tworzonych przez eksperta. Jeden z takich procesów nosi nazwę inżynierii cech . Alternatywnie stosuje się ogólne techniki redukcji wymiarowości, takie jak:

Przetwarzanie obrazu

Bardzo ważnym obszarem zastosowań jest przetwarzanie obrazu , w którym algorytmy są używane do wykrywania i izolowania różnych pożądanych części lub kształtów (cech) zdigitalizowanego obrazu lub strumienia wideo . Jest to szczególnie ważne w obszarze optycznego rozpoznawania znaków .

Wdrożenia

Wiele pakietów oprogramowania do analizy danych umożliwia wyodrębnianie cech i redukcję wymiarów. Typowe środowiska programowania numerycznego, takie jak MATLAB , SciLab , NumPy , Sklearn i język R zapewniają niektóre z prostszych technik wyodrębniania cech (np. Analiza głównych komponentów ) za pomocą wbudowanych poleceń. Bardziej szczegółowe algorytmy są często dostępne jako publicznie dostępne skrypty lub dodatki innych firm. Istnieją również pakiety oprogramowania przeznaczone dla określonych aplikacji do uczenia maszynowego, które specjalizują się w wyodrębnianiu funkcji.

Zobacz też

Bibliografia