Zakres międzykwartylowy - Interquartile range

Wykres pudełkowy (z przedziałem) i funkcji gęstości prawdopodobieństwa (PDF) Normal N (0, Ď 2 ) Populacja

W statystyki opisowej The rozstęp ( IQR ), zwany również midspread , środkowy 50% , lub H rozpowszechnione jest miarą dyspersji statystycznej , jest równa różnicy między 75. i 25. percentyla lub pomiędzy górnymi i dolnymi kwartylami , IQR = Q 3  −  Q 1 . Innymi słowy, IQR to pierwszy kwartyl odjęty od trzeciego kwartyla; te kwartyle można wyraźnie zobaczyć na wykresie pudełkowym na danych. Jest to przycięty estymator , zdefiniowany jako 25% przycięty zakres i jest powszechnie stosowaną solidną miarą skali .

IQR jest miarą zmienności, opartą na podzieleniu zbioru danych na kwartyle. Kwartyle dzielą zestaw danych uporządkowanych według rangi na cztery równe części. Wartości oddzielające części nazywane są pierwszym, drugim i trzecim kwartylem; i są one oznaczane przez Q1, zwany również dolnym kwartylem, Q2 i Q3, zwany również odpowiednio górnym kwartylem. Te kwartyle są określane przez interpolację liniową.

Posługiwać się

W przeciwieństwie do ogólnej zakresie The przedziałem ma punkt przebicia 25%, i jest zatem często preferowane do całkowitego zakresu.

IQR służy do budowania wykresów skrzynkowych , prostych graficznych reprezentacji rozkładu prawdopodobieństwa .

IQR jest używany w przedsiębiorstwach jako wskaźnik ich dochodów .

W przypadku rozkładu symetrycznego (gdzie mediana jest równa środkowemu zawiasowi , średniej pierwszego i trzeciego kwartyla), połowa IQR jest równa medianie odchylenia bezwzględnego (MAD).

Środkowa jest odpowiedni miarą tendencji centralnej .

IQR można wykorzystać do identyfikacji wartości odstających (patrz poniżej ). IQR może również wskazywać na skośność zbioru danych.

Odchylenie kwartylowe lub przedział pół-międzykwartylowy definiuje się jako połowę IQR.

Algorytm

IQR zbioru wartości oblicza się jako różnicę między górnym i dolnym kwartylem, Q 3 i Q 1 . Każdy kwartyl to mediana obliczona w następujący sposób.

Biorąc pod uwagę parzystą 2n lub nieparzystą 2n+1 liczbę wartości

pierwszy kwartyl Q 1 = mediana n najmniejszych wartości
trzeci kwartyl Q 3 = mediana n największych wartości

Drugi kwartyl Q 2 jest taki sam jak zwykły mediany.

Przykłady

Zestaw danych w tabeli

Poniższa tabela ma 13 wierszy i jest zgodna z zasadami nieparzystej liczby wpisów.

i x[i] Mediana Kwartyl
1 7 Q 2 =87
(mediana całej tabeli)
Q 1 =31
(mediana górnej połowy, od rzędu 1 do 6)
2 7
3 31
4 31
5 47
6 75
7 87
8 115
Q 3 =119
(mediana dolnej połowy, od rzędu 8 do 13)
9 116
10 119
11 119
12 155
13 177

Dla danych w tej tabeli przedział międzykwartylowy to IQR = Q 3 − Q 1 = 119 - 31 = 88.

Zestaw danych na wykresie w postaci zwykłego tekstu

                    
                             +−−−−−+−+     
               * |−−−−−−−−−−−| | |−−−−−−−−−−−|
                             +−−−−−+−+    
                    
 +−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+−−−+ liczba linia
 0 1 2 3 4 5 6 7 8 9 10 11 12
  

Dla zbioru danych w tym wykresie pudełkowym :

  • dolny (pierwszy) kwartyl Q 1 = 7
  • mediana (drugi kwartyl) Q 2 = 8,5
  • górny (trzeci) kwartyl Q 3 = 9
  • przedział międzykwartylowy, IQR = Q 3 - Q 1 = 2
  • niższy 1,5*IQR wąs = Q 1 - 1,5 * IQR = 7 - 3 = 4. (Jeśli nie ma punktu danych przy 4, to najniższy punkt jest większy niż 4.)
  • górna 1,5*IQR wąs = Q 3 + 1,5 * IQR = 9 + 3 = 12. (Jeśli nie ma punktu danych przy 12, to najwyższy punkt jest mniejszy niż 12.)

Oznacza to, że wąsy 1,5*IQR mogą mieć nierówną długość. Mediana, minimum, maksimum oraz pierwszy i trzeci kwartyl to „sumowanie pięciocyfrowe” sugerowane przez JW Tukeya.

Dystrybucje

Rozstęp międzykwartylowy rozkładu ciągłego można obliczyć przez całkowanie funkcji gęstości prawdopodobieństwa (co daje funkcję rozkładu skumulowanego — każdy inny sposób obliczania CDF również będzie działał). Dolny kwartyl Q 1 jest liczbą taką, że całka PDF od -∞ do Q 1 wynosi 0,25, podczas gdy górny kwartyl Q 3 , jest liczbą taką, że całka od -∞ do Q 3 wynosi 0,75; pod względem CDF kwartyle można zdefiniować w następujący sposób:

gdzie CDF -1 jest funkcją kwantylową .

Poniżej przedstawiono rozstęp międzykwartylowy i medianę niektórych powszechnych rozkładów

Dystrybucja Mediana IQR
Normalna μ 2 Φ -1 (0,75)σ ≈ 1,349σ ≈ (27/20)σ
Laplace μ 2 b  ln (2) ≈ 1,386 b
Cauchy μ

Test rozstępu międzykwartylowego dla normalności rozkładu

IQR, średnia i odchylenie standardowe populacji P mogą być użyte w prostym teście, czy P ma rozkład normalny lub czy nie ma rozkładu gaussowskiego. Jeśli P ma rozkład normalny, to standardowy wynik pierwszego kwartyla, z 1 , wynosi −0,67, a standardowy wynik trzeciego kwartyla, z 3 , wynosi +0,67. Biorąc pod uwagę średnią  =  i odchylenie standardowe  = σ dla P , jeśli P ma rozkład normalny, pierwszy kwartyl

i trzeci kwartyl

Jeżeli rzeczywiste wartości pierwszego lub trzeciego kwartyla różnią się znacznie od wartości obliczonych, P nie ma rozkładu normalnego. Jednak normalny rozkład może być trywialnie zaburzony, aby utrzymać jego std Q1 i Q2. wyniki na poziomie 0,67 i -0,67 i nie mają rozkładu normalnego (więc powyższy test da wynik fałszywie dodatni). Wskazano tutaj lepszy test normalności, taki jak wykres Q–Q .

Odstające

Wykres typu pudełko i wąs z czterema łagodnymi wartościami odstającymi i jedną skrajną wartością odstającą. Na tym wykresie wartości odstające są definiowane jako łagodne powyżej Q3 + 1,5 IQR i skrajne powyżej Q3 + 3 IQR.

Rozstęp międzykwartylowy jest często używany do znajdowania wartości odstających w danych. Wartości odstające definiuje się tutaj jako obserwacje, które mieszczą się poniżej Q1 – 1,5 IQR lub powyżej Q3 + 1,5 IQR. Na wykresie pudełkowym najwyższa i najniższa występująca wartość w tym limicie są oznaczone wąsami pudełka (często z dodatkowym paskiem na końcu wąsu) oraz dowolnymi wartościami odstającymi jako osobnymi punktami.

Zobacz też

Bibliografia

Zewnętrzne linki