Współczynnik korelacji Pearsona - Pearson correlation coefficient

W statystyk The współczynnik korelacji Pearsona ( PCC , wydane / s ɪər s ən / ) - znana również jako Pearsona r , do współczynnika produktu impulsu korelacji Pearsona ( PPMCC ), przy czym korelacja dwuwymiarowym lub potocznie prostu jako współczynnika korelacji - jest miara korelacji liniowej między dwoma zestawami danych. Jest to stosunek między kowariancją dwóch zmiennych a iloczynem ich odchyleń standardowych ; zatem jest to zasadniczo znormalizowany pomiar kowariancji, taki, że wynik zawsze ma wartość od -1 do 1. Podobnie jak w przypadku samej kowariancji, miara może odzwierciedlać tylko liniową korelację zmiennych i ignoruje wiele innych typów relacji lub korelacji . Jako prosty przykład można by oczekiwać, że wiek i wzrost próby nastolatków ze szkoły średniej będą miały współczynnik korelacji Pearsona znacznie większy niż 0, ale mniejszy niż 1 (ponieważ 1 oznaczałoby nierealistycznie doskonałą korelację).

Przykłady wykresów punktowych z różnymi wartościami współczynnika korelacji ( ρ )
Kilka zbiorów punktów ( xy ) ze współczynnikiem korelacji x i y dla każdego zbioru. Zauważ, że korelacja odzwierciedla siłę i kierunek relacji liniowej (górny wiersz), ale nie nachylenie tej relacji (w środku), ani wiele aspektów relacji nieliniowych (na dole). Uwaga: cyfra w środku ma nachylenie równe 0, ale w tym przypadku współczynnik korelacji jest nieokreślony, ponieważ wariancja Y wynosi zero.

Nazewnictwo i historia

Został on opracowany przez Karla Pearsona z pokrewnej idei wprowadzonej przez Francisa Galtona w latach 80. XIX wieku, dla której wzór matematyczny został wyprowadzony i opublikowany przez Auguste Bravais w 1844 roku. Nazewnictwo współczynnika jest więc przykładem prawa Stiglera .

Definicja

Współczynnik korelacji Pearsona to kowariancja dwóch zmiennych podzielona przez iloczyn ich odchyleń standardowych. Forma definicji obejmuje „moment iloczynu”, czyli średnią (pierwszy moment dotyczący pochodzenia) iloczynu zmiennych losowych skorygowanych o średnią; stąd modyfikator product-moment w nazwie.

Dla populacji

Współczynnik korelacji Pearsona, zastosowany do populacji , jest zwykle reprezentowany przez grecką literę ρ (rho) i może być określany jako współczynnik korelacji populacji lub współczynnik korelacji Pearsona . Mając parę zmiennych losowych , wzór na ρ to:

 

 

 

 

( Równanie 1 )

gdzie:

jest kowariancja
jest odchyleniem standardowym
jest odchyleniem standardowym

Wzór na można wyrazić w kategoriach średniej i oczekiwania. Odkąd

wzór na można również zapisać jako

 

 

 

 

( Równanie 2 )

gdzie:

i są zdefiniowane jak powyżej
jest średnią z
jest średnią z
jest oczekiwanie .

Formuła na może być wyrażona w postaci niecentrycznych momentów. Odkąd

wzór na można również zapisać jako

Na próbkę

Współczynnik korelacji Pearsona, po nałożeniu na próbki jest często przedstawiony i mogą być określane jako przykładowego współczynnika korelacji lub współczynnika korelacji Pearsona próbki . Możemy otrzymać wzór na przez podstawienie szacunków kowariancji i wariancji na podstawie próbki do powyższego wzoru. Dane sparowane składające się z par, definiuje się jako:

 

 

 

 

( Równanie 3 )

gdzie:

jest wielkość próbki
czy poszczególne punkty próbkowania są indeksowane przez i
(średnia próbki); i analogicznie dla

Przearanżowanie daje nam ten wzór na :

gdzie są zdefiniowane jak powyżej.

Ta formuła sugeruje wygodny algorytm jednoprzebiegowy do obliczania korelacji próbek, chociaż w zależności od zaangażowanych liczb może czasami być niestabilna numerycznie .

Ponowne przegrupowanie daje nam ten wzór na :

gdzie są zdefiniowane jak powyżej.

Równoważne wyrażenie daje wzór na jako średnią iloczynów standardowych wyników w następujący sposób:

gdzie:

są zdefiniowane jak powyżej i są zdefiniowane poniżej
to standardowy wynik (i analogicznie dla standardowego wyniku )

Dostępne są również alternatywne formuły dla . Na przykład. na :

gdzie:

są zdefiniowane jak powyżej oraz:
(odchylenie standardowe próbki); i analogicznie dla

Problemy praktyczne

W warunkach dużego szumu wyodrębnienie współczynnika korelacji między dwoma zestawami zmiennych stochastycznych nie jest trywialne, w szczególności w przypadku, gdy analiza korelacji kanonicznej raportuje obniżone wartości korelacji z powodu udziału dużego szumu. Uogólnienie podejścia podano w innym miejscu.

W przypadku braku danych Garren wyprowadził estymator maksymalnego prawdopodobieństwa .

Własności matematyczne

Wartości bezwzględne współczynników korelacji Pearsona zarówno próbki, jak i populacji wynoszą od 0 do 1. Korelacje równe +1 lub -1 odpowiadają punktom danych leżącym dokładnie na prostej (w przypadku korelacji próbki) lub rozkład dwuwymiarowy w całości poparty na linii (w przypadku korelacji populacyjnej). Współczynnik korelacji Pearsona jest symetryczny: corr( X , Y ) = corr( Y , X ).

Kluczową matematyczną właściwością współczynnika korelacji Pearsona jest to, że jest on niezmienny przy osobnych zmianach lokalizacji i skali tych dwóch zmiennych. Oznacza to, że możemy przekształcić X w a  +  bX i przekształcić Y w c  +  dY , gdzie a , b , c i d są stałymi z b , d > 0 , bez zmiany współczynnika korelacji. (Odnosi się to zarówno do populacji, jak i dla współczynników korelacji Pearsona dla próby.) Zauważ, że bardziej ogólne przekształcenia liniowe zmieniają korelację: patrz § Relacja n zmiennych losowych, aby dowiedzieć się, jak to zastosować.

Interpretacja

Współczynnik korelacji waha się od -1 do 1. Wartość bezwzględna dokładnie 1 oznacza, że ​​równanie liniowe doskonale opisuje związek między X i Y , przy czym wszystkie punkty danych leżą na linii . Znak korelacji jest określony przez nachylenie regresji : wartość +1 oznacza, że ​​wszystkie punkty danych leżą na linii, dla której Y wzrasta wraz ze wzrostem X i odwrotnie dla -1. Wartość 0 oznacza, że ​​nie ma liniowej zależności między zmiennymi.

Mówiąc ogólniej, zauważ, że ( X i  −  X )( Y i  −  Y ) jest dodatnie wtedy i tylko wtedy, gdy X i oraz Y i leżą po tej samej stronie ich odpowiednich średnich. Tak więc współczynnik korelacji jest pozytywny, gdy X i i Y i zwykle są jednocześnie większe niż lub jednocześnie mniejsza niż ich środki. Współczynnik korelacji jest ujemny ( antykorelacja ), jeśli X i i Y i mają tendencję do kładzenia się po przeciwnych stronach ich odpowiednich średnich. Co więcej, im silniejsza jest któraś z tendencji, tym większa jest wartość bezwzględna współczynnika korelacji.

Rodgers i Nicewander skatalogowali trzynaście sposobów interpretacji korelacji lub jej prostych funkcji:

  • Funkcja surowych wyników i średnich
  • Kowariancja standaryzowana
  • Standaryzowane nachylenie linii regresji
  • Średnia geometryczna dwóch nachyleń regresji
  • Pierwiastek kwadratowy ze stosunku dwóch wariancji
  • Średni iloczyn krzyżowy zmiennych standaryzowanych
  • Funkcja kąta między dwiema standardowymi liniami regresji
  • Funkcja kąta między dwoma wektorami zmiennymi
  • Przeskalowana wariancja różnicy między wynikami standaryzowanymi
  • Szacowane z reguły balonowej
  • Związane z dwuwymiarowymi elipsami izokoncentracji
  • Funkcja statystyki testowej z zaprojektowanych eksperymentów
  • Stosunek dwóch średnich

Interpretacja geometryczna

Linie regresji dla y = g X ( x ) [ czerwone ] i x = g Y ( y ) [ niebieskie ]

W przypadku danych niewycentrowanych istnieje związek między współczynnikiem korelacji a kątem φ między dwiema liniami regresji, y = g X ( x ) i x = g Y ( y ) , uzyskanym przez regresję odpowiednio y na x i x na y . (Tutaj φ jest mierzone w kierunku przeciwnym do ruchu wskazówek zegara w pierwszym kwadrancie utworzonym wokół punktu przecięcia linii, jeśli r > 0 , lub w kierunku przeciwnym do ruchu wskazówek zegara od czwartego do drugiego kwadrantu, jeśli r < 0 .) Można wykazać, że jeśli odchylenia standardowe są równe, to r = sec φ − tan φ , gdzie sec i tan są funkcjami trygonometrycznymi .

Dla skupionych danych (to znaczy danych, które zostały przesunięte przez próbkę pomocą odpowiednich zmienne tak, aby uzyskać średnią równą zero dla każdego zmienna), współczynnik korelacji może być także postrzegany jako cosinusa tego kąta θ pomiędzy dwoma obserwowanymi wektory w przestrzeni N- wymiarowej (dla N obserwacji każdej zmiennej)

Dla zbioru danych można określić zarówno niewycentrowane (niezgodne z Pearsona), jak i wyśrodkowane współczynniki korelacji. Jako przykład załóżmy, że pięć krajów ma produkt narodowy brutto w wysokości odpowiednio 1, 2, 3, 5 i 8 miliardów dolarów. Załóżmy, że te same pięć krajów (w tej samej kolejności) ma 11%, 12%, 13%, 15% i 18% ubóstwa. Następnie niech x i y będą uporządkowane wektory 5-elementowe zawierające powyższe dane: x = (1, 2, 3, 5, 8) i y = (0,11, 0,12, 0,13, 0,15, 0,18) .

Zgodnie ze zwykłą procedurą znajdowania kąta θ między dwoma wektorami (patrz iloczyn skalarny ), niecentrowany współczynnik korelacji wynosi:

Ten niecentrowany współczynnik korelacji jest identyczny z podobieństwem cosinusowym . Zauważ, że powyższe dane zostały celowo wybrane jako doskonale skorelowane: y = 0,10 + 0,01 x . Współczynnik korelacji Pearsona musi zatem wynosić dokładnie jeden. Centrowanie danych (przesunięcie x o ℰ( x ) = 3,8 i y o ℰ ( y ) = 0,138 ) daje x = (-2,8, -1,8, -0,8, 1,2, 4,2) i y = (-0,028, -0,018, −0,008, 0,012, 0,042) , z czego

zgodnie z oczekiwaniami.

Interpretacja wielkości korelacji

Rysunek ten daje wyobrażenie o tym, jak przydatność korelacji Pearsona do przewidywania wartości zmienia się wraz z jej wielkością. Biorąc pod uwagę łącznie normalne X , Y z korelacją ρ , (wykreśloną tutaj jako funkcję ρ ) jest to czynnik, o który dany przedział predykcji dla Y może zostać zmniejszony przy odpowiedniej wartości X . Na przykład, jeśli ρ = 0,5, to 95% przedział predykcji Y | X będzie o około 13% mniejsze niż 95% przedział predykcji Y .

Kilku autorów przedstawiło wytyczne dotyczące interpretacji współczynnika korelacji. Jednak wszystkie takie kryteria są pod pewnymi względami arbitralne. Interpretacja współczynnika korelacji zależy od kontekstu i celów. Korelacja 0,8 może być bardzo niska, jeśli weryfikuje się prawo fizyczne przy użyciu wysokiej jakości narzędzi, ale może być uważana za bardzo wysoką w naukach społecznych, gdzie może być większy udział czynników komplikujących.

Wnioskowanie

Wnioskowanie statystyczne oparte na współczynniku korelacji Pearsona często koncentruje się na jednym z dwóch następujących celów:

  • Jednym z celów jest przetestowanie hipotezy zerowej, że prawdziwy współczynnik korelacji ρ jest równy 0, na podstawie wartości współczynnika korelacji próbki r .
  • Drugim celem jest wyznaczenie przedziału ufności, który przy wielokrotnym próbkowaniu ma dane prawdopodobieństwo, że zawiera ρ .

Poniżej omawiamy metody osiągnięcia jednego lub obu tych celów.

Korzystanie z testu permutacji

Testy permutacyjne zapewniają bezpośrednie podejście do wykonywania testów hipotez i konstruowania przedziałów ufności. Test permutacji współczynnika korelacji Pearsona obejmuje następujące dwa etapy:

  1. Używając oryginalnych sparowanych danych ( x iy i ), losowo przedefiniuj pary, aby utworzyć nowy zbiór danych ( x iy i′ ), gdzie i′ są permutacją zbioru {1,..., n }. Permutacja i′ jest wybierana losowo, z równymi prawdopodobieństwami umieszczanymi na wszystkich n ! możliwe permutacje. Jest to równoważne losowemu losowaniu i′ bez zamiany ze zbioru {1, ..., n }. W ładowaniu początkowym , ściśle powiązanym podejściu, i oraz i′ są równe i rysowane z zamianą z {1, ..., n };
  2. Skonstruuj współczynnik korelacji r z danych randomizowanych.

Aby wykonać test permutacji, powtórz kroki (1) i (2) dużą liczbę razy. Wartość p dla testu permutacji jest proporcją wartości r wygenerowanych w kroku (2), które są większe niż współczynnik korelacji Pearsona, który został obliczony na podstawie oryginalnych danych. Tutaj „większy” może oznaczać, że wartość jest większa pod względem wielkości lub większa pod względem wartości ze znakiem, w zależności od tego, czy pożądany jest test dwustronny, czy jednostronny .

Korzystanie z programu ładowania początkowego

Bootstrap mogą być wykorzystane do skonstruowania przedziały ufności dla współczynnika korelacji Pearsona. W „nieparametrycznego” bootstrap N par ( x IR I ) są próbkowane „zastępując” z obserwowanym zestaw n parami, i współczynnik korelacji r jest obliczany w oparciu o próbkowane dane. Proces ten jest powtarzany wiele razy, a empiryczny rozkład ponownie próbkowanych wartości r służy do przybliżenia rozkładu próbkowania statystyki. 95% przedział ufności dla ρ można zdefiniować jako przedział rozciągający się od 2,5 do 97,5 percentyla ponownie próbkowanych wartości r .

Testowanie z wykorzystaniem rozkładu t- Studenta

Krytyczne wartości współczynnika korelacji Pearsona, które muszą zostać przekroczone, aby uznać je za istotnie niezerowe na poziomie 0,05.

Dla pary z nieskorelowane dwuwymiarowym rozkładu normalnego The rozkład próbek o określonej funkcji współczynnika korelacji Pearsona następujące Studenta t -Dystrybucja ze stopniami swobody n  - 2. W szczególności, jeżeli zmienne bazowych dwuwymiarowym rozkładu normalnego, zmienna

ma rozkład t- Studenta w przypadku zerowym (korelacja zerowa). Zasada ta obowiązuje w przybliżeniu w przypadku obserwowanych wartości odbiegających od normalnych, jeśli rozmiary próbek są wystarczająco duże. Do wyznaczenia wartości krytycznych dla r potrzebna jest funkcja odwrotna:

Alternatywnie można zastosować podejście asymptotyczne na dużej próbie.

Inny wczesny artykuł zawiera wykresy i tabele dla ogólnych wartości ρ dla małych próbek i omawia podejścia obliczeniowe.

W przypadku, gdy zmienne bazowe nie są normalne, rozkład próbkowania współczynnika korelacji Pearsona jest zgodny z rozkładem t- Studenta, ale stopnie swobody są zmniejszone.

Korzystanie z dokładnego rozkładu

Dla danych, które są zgodne z dwuwymiarowym rozkładem normalnym , dokładna funkcja gęstości f ( r ) dla współczynnika korelacji próbki r dwuwymiarowej normalnej wynosi

gdzie jest funkcją gamma i jest funkcją hipergeometryczną Gaussa .

W szczególnym przypadku, gdy , dokładną funkcję gęstości f ( r ) można zapisać jako:

gdzie jest funkcją beta , która jest jednym ze sposobów zapisywania gęstości rozkładu t-Studenta, jak wyżej.

Korzystanie z dokładnego rozkładu ufności

Przedziały ufności i testy można obliczyć na podstawie rozkładu ufności . Dokładna gęstość ufności dla ρ to

gdzie jest funkcją hipergeometryczną Gaussa i .

Korzystanie z transformacji Fishera

W praktyce, przedziały ufności i testy hipotez odnoszących się do p są zwykle przeprowadzane przy użyciu transformacji Fishera , :

F ( r ) w przybliżeniu odpowiada rozkładowi normalnemu z

    i standardowy błąd

gdzie n to wielkość próby. Błąd aproksymacji jest najniższy dla dużej próby i dla małej, aw przeciwnym razie wzrasta.

Stosując przybliżenie, z-score to

zgodnie z hipotezą zerową , że przy założeniu , że pary próbek są niezależne i mają identyczny rozkład oraz mają dwuwymiarowy rozkład normalny . W ten sposób przybliżoną wartość p można uzyskać z normalnej tabeli prawdopodobieństwa. Na przykład, jeśli  obserwuje się z = 2,2 i pożądana jest dwustronna wartość p w celu przetestowania hipotezy zerowej , że wartość p wynosi 2 Φ(−2.2) = 0,028 , gdzie Φ jest standardową funkcją skumulowanego rozkładu normalnego .

Aby uzyskać przedział ufności dla ρ, najpierw obliczamy przedział ufności dla F ( ):

Odwrotna transformacja Fishera sprowadza interwał z powrotem do skali korelacji.

Załóżmy na przykład, że obserwujemy r  = 0,3 przy wielkości próby n = 50 i chcemy uzyskać 95% przedział ufności dla ρ. Przekształcona wartość to arctanh( r ) = 0,30952, więc przedział ufności na przekształconej skali wynosi 0,30952 ± 1,96/ 47 lub (0,023624, 0,595415). Po przejściu z powrotem do wyników w skali korelacji (0,024, 0,534).

Analiza regresji metodą najmniejszych kwadratów

Kwadrat współczynnika korelacji próbki jest zwykle oznaczany r 2 i jest szczególnym przypadkiem współczynnika determinacji . W tym przypadku szacuje ułamek wariancji w Y, który jest wyjaśniony przez X w prostej regresji liniowej . Więc jeśli mamy obserwowany zbiór danych i dopasowany zbiór danych, to jako punkt wyjścia całkowitą zmienność Y i wokół ich średniej wartości można rozłożyć w następujący sposób

gdzie są dopasowane wartości z analizy regresji. Można to zmienić, aby dać

Dwie powyższe sumy to ułamek wariancji w Y, który jest wyjaśniony przez X (po prawej) i niewyjaśniony przez X (po lewej).

Następnie stosujemy właściwość modeli regresji najmniejszych kwadratów, że kowariancja próbki między a wynosi zero. W ten sposób można zapisać współczynnik korelacji próbki między obserwowanymi i dopasowanymi wartościami odpowiedzi w regresji (obliczenia są w oczekiwaniu, przy założeniu statystyki Gaussa)

Zatem

gdzie

jest proporcją wariancji w Y wyjaśnioną funkcją liniową X .

W powyższym wyprowadzeniu fakt, że

można udowodnić, zauważając, że pochodne cząstkowe sumy kwadratów reszt ( RSS ) po β 0 i β 1 są równe 0 w modelu najmniejszych kwadratów , gdzie

.

Ostatecznie równanie można zapisać jako:

gdzie

Symbol nazywa się sumą kwadratów regresji, zwaną również wyjaśnioną sumą kwadratów i jest całkowitą sumą kwadratów (proporcjonalną do wariancji danych).

Wrażliwość na dystrybucję danych

Istnienie

Populacyjny współczynnik korelacji Pearsona jest definiowany w kategoriach momentów , a zatem istnieje dla dowolnego dwuwymiarowego rozkładu prawdopodobieństwa, dla którego zdefiniowana jest kowariancja populacji, a marginalne wariancje populacji są zdefiniowane i są niezerowe. Niektóre rozkłady prawdopodobieństwa, takie jak rozkład Cauchy'ego, mają niezdefiniowaną wariancję, a zatem ρ nie jest zdefiniowane, jeśli X lub Y są zgodne z takim rozkładem. W niektórych praktycznych zastosowaniach, takich jak te, w których istnieje podejrzenie, że dane są zgodne z rozkładem gęstoogonowym , jest to ważny czynnik. Jednak istnienie współczynnika korelacji zwykle nie stanowi problemu; na przykład, jeśli zakres rozkładu jest ograniczony, ρ jest zawsze definiowane.

Wielkość próbki

  • Jeśli wielkość próby jest umiarkowana lub duża, a populacja jest normalna, to w przypadku dwuwymiarowego rozkładu normalnego współczynnik korelacji próby jest oszacowaniem największego prawdopodobieństwa współczynnika korelacji populacji i jest asymptotycznie nieobciążony i wydajny , co w przybliżeniu oznacza że niemożliwe jest skonstruowanie dokładniejszego oszacowania niż współczynnik korelacji próbki.
  • Jeśli wielkość próbki jest duża, a populacja nie jest normalna, współczynnik korelacji próbki pozostaje w przybliżeniu bezstronny, ale może nie być wydajny.
  • Jeśli wielkość próby jest duża, to współczynnik korelacji próby jest spójnym estymatorem współczynnika korelacji populacji, o ile średnie próby, wariancje i kowariancja są spójne (co jest gwarantowane, gdy można zastosować prawo dużych liczb ).
  • Jeśli wielkość próbki jest mała, wówczas współczynnik korelacji próby r nie jest bezstronną estymatą ρ . Zamiast tego należy użyć skorygowanego współczynnika korelacji: definicja w innym miejscu tego artykułu.
  • Korelacje mogą być różne dla niezrównoważonych danych dychotomicznych, gdy w próbce występuje błąd wariancji.

Krzepkość

Podobnie jak wiele powszechnie używanych statystyk, przykładowa statystyka r nie jest odporna , więc jej wartość może wprowadzać w błąd, jeśli występują wartości odstające . W szczególności PMCC nie jest ani odporny na dystrybucję, ani odporny na wartości odstające (patrz Odporne statystyki#Definition ). Inspekcja wykresu rozrzutu między X i Y zwykle ujawnia sytuację, w której brak odporności może stanowić problem, i w takich przypadkach może być wskazane użycie solidnej miary powiązania. Należy jednak zauważyć, że chociaż najbardziej wiarygodne estymatory asocjacji mierzą w jakiś sposób zależność statystyczną , to generalnie nie można ich interpretować na tej samej skali, co współczynnik korelacji Pearsona.

Wnioskowanie statystyczne dla współczynnika korelacji Pearsona jest wrażliwe na rozkład danych. Dokładne testy i testy asymptotyczne oparte na transformacji Fishera można zastosować, jeśli dane mają w przybliżeniu rozkład normalny, ale w przeciwnym razie mogą być mylące. W niektórych sytuacjach bootstrap można zastosować do konstruowania przedziałów ufności, a testy permutacji można zastosować do przeprowadzenia testów hipotez. Te nieparametryczne podejścia mogą dawać bardziej znaczące wyniki w niektórych sytuacjach, w których nie zachodzi normalność dwuwymiarowa. Jednak standardowe wersje tych podejść opierają się na wymienności danych, co oznacza, że ​​nie ma porządkowania ani grupowania analizowanych par danych, które mogłyby wpłynąć na zachowanie oszacowania korelacji.

Analiza warstwowa jest jednym ze sposobów dostosowania się do braku dwuwymiarowej normalności lub wyizolowania korelacji wynikającej z jednego czynnika przy jednoczesnym kontrolowaniu innego. Jeśli W reprezentuje członkostwo w klastrze lub inny czynnik, który należy kontrolować, możemy stratyfikować dane w oparciu o wartość W , a następnie obliczyć współczynnik korelacji w każdej warstwie. Oszacowania na poziomie warstwy można następnie połączyć, aby oszacować ogólną korelację, kontrolując W .

Warianty

Warianty współczynnika korelacji można obliczyć dla różnych celów. Oto kilka przykładów.

Skorygowany współczynnik korelacji

Współczynnik korelacji próbki r nie jest bezstronnym oszacowaniem ρ . Dla danych, które są zgodne z dwuwymiarowym rozkładem normalnym , oczekiwanie E[ r ] dla współczynnika korelacji próbki r dwuwymiarowej normalnej wynosi

dlatego r jest obciążonym estymatorem

Unikalny nieobciążony estymator minimalnej wariancji r adj jest podany przez

 

 

 

 

( 1 )

gdzie:

są zdefiniowane jak powyżej,
jest funkcją hipergeometryczną Gaussa .

W przybliżeniu nieobciążony estymator r adj można uzyskać przez obcięcie E[ r ] i rozwiązanie tego obciętego równania:

 

 

 

 

( 2 )

Przybliżone rozwiązanie równania ( 2 ) to:

 

 

 

 

( 3 )

gdzie w ( 3 ):

są zdefiniowane jak powyżej,
r adj jest estymatorem suboptymalnym,
r adj można również uzyskać maksymalizując log( f ( r )),
r adj ma minimalną wariancję dla dużych wartości n ,
r adj ma nastawienie rzędu 1( n − 1 ) .

Innym proponowanym skorygowanym współczynnikiem korelacji jest:

Zauważ, że r adjr dla dużych wartości  n .

Ważony współczynnik korelacji

Załóżmy, że obserwacje, które mają być skorelowane, mają różne stopnie ważności, które można wyrazić za pomocą wektora wagowego w . Aby obliczyć korelację między wektorami x i y z wektorem wag w (wszystkie o długości  n ),

  • Średnia ważona:
  • Kowariancja ważona
  • Korelacja ważona

Współczynnik korelacji refleksyjnej

Korelacja refleksyjna jest wariantem korelacji Pearsona, w której dane nie są wyśrodkowane wokół ich wartości średnich. Populacyjna korelacja refleksyjna wynosi

Korelacja refleksyjna jest symetryczna, ale nie jest niezmienna w translacji:

Przykładowa korelacja refleksyjna jest równoważna podobieństwu cosinusów :

Ważona wersja próbnej korelacji refleksyjnej to

Skalowany współczynnik korelacji

Korelacja skalowana jest odmianą korelacji Pearsona, w której zakres danych jest celowo i w sposób kontrolowany ograniczany w celu ujawnienia korelacji między szybkimi składowymi szeregów czasowych. Korelacja skalowana jest definiowana jako średnia korelacja pomiędzy krótkimi segmentami danych.

Niech będzie liczba segmentów, które mogą zmieścić się w całkowitej długości sygnału dla danej skali :

Skalowana korelacja w obrębie całych sygnałów jest następnie obliczana jako

gdzie jest współczynnikiem korelacji Pearsona dla segmentu .

Wybierając parametr redukowany jest zakres wartości i odfiltrowywane są korelacje w długich skalach czasowych, ujawniając jedynie korelacje w krótkich skalach czasowych. W ten sposób wkłady powolnych komponentów są usuwane, a wkłady szybkich komponentów są zachowane.

Odległość Pearsona

Miernik odległości dla dwóch zmiennych X i Y, znany jako odległość Pearsona, można zdefiniować na podstawie ich współczynnika korelacji jako

Biorąc pod uwagę, że współczynnik korelacji Pearsona mieści się w przedziale [-1, +1], odległość Pearsona leży w [0, 2]. Odległość Pearsona została wykorzystana w analizie klastrów i wykrywaniu danych do komunikacji i przechowywania przy nieznanym wzmocnieniu i przesunięciu

Współczynnik korelacji kołowej

Dla zmiennych X = { x 1 ,..., x n } i Y = { y 1 ,..., y n } zdefiniowanych na okręgu jednostkowym [0, 2 π ] możliwe jest zdefiniowanie okręgu analog współczynnika Pearsona. Odbywa się to poprzez przekształcenie punktów danych w X i Y za pomocą funkcji sinus tak, że współczynnik korelacji jest podany jako:

gdzie i są okrągłe środki z XY . Miara ta może być przydatna w dziedzinach takich jak meteorologia, w których ważny jest kątowy kierunek danych.

Korelacja częściowa

Jeżeli populacja lub zbiór danych charakteryzują się więcej niż dwiema zmiennymi, współczynnik korelacji cząstkowej mierzy siłę zależności między parą zmiennych, która nie jest uwzględniana przez sposób, w jaki obie zmieniają się w odpowiedzi na zmiany w wybranym podzbiorze innych zmiennych.

Derelacja n zmiennych losowych

Zawsze można usunąć korelacje między wszystkimi parami dowolnej liczby zmiennych losowych za pomocą transformacji danych, nawet jeśli relacja między zmiennymi jest nieliniowa. Prezentację tego wyniku dla rozkładów populacji podali Cox i Hinkley.

Istnieje odpowiedni wynik redukcji korelacji próbek do zera. Załóżmy, że wektor n zmiennych losowych jest obserwowany m razy. Niech X będzie macierzą, gdzie jest j- tą zmienną obserwacji i . Niech będzie macierzą kwadratową m na m z każdym elementem 1. Wtedy D to dane przekształcone tak, że każda zmienna losowa ma zerową średnią, a T to dane przekształcone tak, aby wszystkie zmienne miały zerową średnią i zerową korelację ze wszystkimi innymi zmiennymi – korelacja próbki matryca z T będzie macierzą jednostkową. Należy to dalej podzielić przez odchylenie standardowe, aby uzyskać wariancję jednostkową. Przekształcone zmienne będą nieskorelowane, chociaż mogą nie być niezależne .

gdzie wykładnik +12 reprezentuje pierwiastek kwadratowy macierzy z odwrotności macierzy. Macierz korelacji T będzie macierzą tożsamości. Jeśli nowa obserwacja danych x jest wektorem wierszowym składającym się z n elementów, to tę samą transformację można zastosować do x, aby uzyskać transformowane wektory d i t :

Ta dekorelacja jest związana z analizą głównych składowych dla danych wielowymiarowych.

Wdrożenia oprogramowania

Zobacz też

Przypisy

Bibliografia

Zewnętrzne linki