Podsumowanie pięciocyfrowe - Five-number summary

Podsumowanie pięciu liczba jest zbiorem statystyki opisowej , która dostarcza informacji o zbiorze danych. Składa się z pięciu najważniejszych percentyli próby :

próbki minimalna (najmniejszy obserwacji)
kwartyl dolny lub pierwszy kwartyl
mediana (wartość środkowa)
górny kwartyl lub trzeci kwartyl
próbka maksymalna (największy obserwacja)

Oprócz mediany pojedynczego zestawu danych istnieją dwie powiązane statystyki zwane górnym i dolnym kwartylem. Jeśli dane są uporządkowane, dolny kwartyl jest centralny dla dolnej połowy danych, a górny kwartyl jest centralny dla górnej połowy danych. Te kwartyle służą do obliczania rozstępu międzykwartylowego, który pomaga opisać rozproszenie danych i określić, czy jakiekolwiek punkty danych są wartościami odstającymi.

Aby te statystyki istnieć obserwacje muszą być z jednowymiarowej zmiennej, która może być mierzone na porządkowej lub interwałowej, współczynnik skali .

Wykorzystanie i reprezentacja

Pięciocyfrowe podsumowanie stanowi zwięzłe podsumowanie rozkładu obserwacji. Zgłoszenie pięciu liczb pozwala uniknąć konieczności decydowania o najodpowiedniejszej statystyce podsumowującej. Pięcioliczbowe podsumowanie podaje informacje o lokalizacji (od mediany), rozkładzie (od kwartyli) i zasięgu (od minimum i maksimum próbki) obserwacji. Ponieważ podaje statystyki rzędów (a nie, powiedzmy, średnią), podsumowanie składające się z pięciu liczb jest odpowiednie dla pomiarów porządkowych , a także pomiarów interwałowych i ilorazowych.

Możliwe jest szybkie porównanie kilku zestawów obserwacji, porównując ich pięciocyfrowe podsumowania, które można przedstawić graficznie za pomocą wykresu pudełkowego .

Oprócz samych punktów, wiele L-estymatorów można obliczyć na podstawie pięcioliczbowego podsumowania, w tym zakres międzykwartylowy , środkowy zawias , zakres , średni zakres i trymean .

Podsumowanie składające się z pięciu liczb jest czasami przedstawiane w poniższej tabeli:

mediana
1. kwartyl	trzeci kwartyl
Minimum	Maksymalny

Przykład

Ten przykład oblicza pięciocyfrowe podsumowanie dla następującego zestawu obserwacji: 0, 0, 1, 2, 63, 61, 27, 13. Są to liczby księżyców każdej planety w Układzie Słonecznym .

Pomaga uporządkowanie obserwacji w porządku rosnącym: 0, 0, 1, 2, 13, 27, 61, 63. Jest osiem obserwacji, więc mediana jest średnią z dwóch środkowych liczb (2 + 13)/2 = 7,5. Rozdzielenie obserwacji po obu stronach mediany daje dwie grupy po cztery obserwacje. Mediana pierwszej grupy to dolny lub pierwszy kwartyl i jest równa (0 + 1)/2 = 0,5. Mediana drugiej grupy to górny lub trzeci kwartyl i jest równa (27 + 61)/2 = 44. Najmniejsza i największa obserwacja to 0 i 63.

Tak więc pięciocyfrowe podsumowanie będzie wynosić 0, 0,5, 7,5, 44, 63.

Przykład w R

Za pomocą funkcji możliwe jest obliczenie pięciocyfrowego podsumowania w języku programowania R. Funkcja, gdy stosuje się do wektora, wyświetla numer pięć podsumowanie wraz z średnią (która sama nie jest częścią podsumowania pięciu liczb). fivenumsummary

> moons <- c(0, 0, 1, 2, 63, 61, 27, 13)
 > fivenum(moons)
[1]  0.0  0.5  7.5 44.0 63.0
> summary(moons)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00    0.75    7.50   20.88   35.50   63.00

Przykład w Pythonie

Ten przykład Pythona używa percentilefunkcji z biblioteki numerycznej numpyi działa w Pythonie 2 i 3.

import numpy as np

def fivenum(data):
    """Five-number summary."""
    return np.percentile(data, [0, 25, 50, 75, 100], interpolation='midpoint')

moons = [0, 0, 1, 2, 63, 61, 27, 13]
print(fivenum(moons))
[  0.    0.5   7.5  44.   63. ]

Przykład w SAS

Możesz użyć PROC UNIVARIATEw SAS (oprogramowanie), aby uzyskać podsumowanie pięciu liczb:

data fivenum;
input x @@;
datalines;
1 2 3 4 20 202 392 4 38 20
;
run;

ods select Quantiles;
proc univariate data = fivenum;
 output out = fivenums min = min Q1 = Q1 Q2 = median Q3 = Q3 max = max;
run;

proc print data = fivenums;
run;

Przykład w Stata

input byte y
0 
0 
1 
2 
63 
61 
27 
13
end 
list

tabstat y, statistics (min q max)

Pięciocyfrowe podsumowanie rozkładu danych.

Zobacz też

Bibliografia

Hoaglin, David C.; Mosteller, Fryderyk; Tukey, John W. , wyd. (21 grudnia 1982). Zrozumienie solidnej i eksploracyjnej analizy danych . Seria Wiley w prawdopodobieństwie i statystyce (1st ed.). Wiley . Numer ISBN 978-0471097778. LCCN 82008528 . OCLC 1038442900 . OL 3488838M .
Greenwood, David; Woolley, Sara; Goodman, Jenny; Vaughan, Jennifer; Palmer, Stuart (8 listopada 2019). „Rozdział 9: Statystyka”. Essential Mathematics for Australian Curriculum Rok 10 (3rd ed.). Wydawnictwo Uniwersytetu Cambridge . Numer ISBN 978-1108773461. OCLC 1231440374 . OL 33037157M .

Languages

In other projects