Opisowe statystyki - Descriptive statistics

Statystyki opisowe (w count rzeczownik sensie) jest statystyka podsumowanie który opisuje ilościowo lub zestawienie cech ze zbioru informacji , podczas gdy statystyki opisowe (w rzeczownik masowej znaczeniu) jest procesem używania i analizując te statystyki. Statystyka opisowa różni się od statystyk wnioskowanych (lub statystyk indukcyjnych) tym, że ich celem jest podsumowanie próby , a nie wykorzystanie danych do poznania populacji, którą ma reprezentować próbka danych. Ogólnie oznacza to, że statystyka opisowa, w przeciwieństwie do statystyki wnioskowej, nie jest rozwijana na podstawie rachunku prawdopodobieństwa i często jest statystyką nieparametryczną . Nawet jeśli z analizy danych wyciąga się główne wnioski za pomocą statystyk inferencyjnych, generalnie przedstawia się również statystyki opisowe. Na przykład w artykułach opisujących ludzi zazwyczaj zawiera się tabelę podającą całkowitą wielkość próby , wielkość próby w ważnych podgrupach (np. dla każdej grupy leczenia lub ekspozycji) oraz cechy demograficzne lub kliniczne, takie jak średni wiek, proporcja osób każdej płci, odsetek osób z pokrewnymi chorobami współistniejącymi itp.

Niektóre miary powszechnie używane do opisu zbioru danych to miary tendencji centralnej oraz miary zmienności lub rozproszenia . Miary tendencji centralnej obejmują średnią , medianę i modę , natomiast miary zmienności obejmują odchylenie standardowe (lub wariancję ), wartości minimalne i maksymalne zmiennych, kurtozę i skośność .

Użyj w analizie statystycznej

Statystyki opisowe dostarczają prostych podsumowań dotyczących próbki i poczynionych obserwacji. Takie podsumowania mogą mieć charakter ilościowy , tj. statystyki podsumowujące , lub wizualne, tj. proste do zrozumienia wykresy. Te podsumowania mogą albo stanowić podstawę wstępnego opisu danych jako część obszerniejszej analizy statystycznej, albo same w sobie mogą być wystarczające do konkretnego badania.

Na przykład procent strzałów w koszykówce to opisowa statystyka, która podsumowuje wyniki gracza lub zespołu. Ta liczba to liczba wykonanych strzałów podzielona przez liczbę wykonanych strzałów. Na przykład gracz, który strzela 33%, wykonuje mniej więcej jeden strzał na trzy. Procent podsumowuje lub opisuje wiele odrębnych zdarzeń. Weź pod uwagę również średnią ocen . Ta pojedyncza liczba opisuje ogólną wydajność ucznia w całym zakresie jego doświadczeń na kursach.

Wykorzystanie statystyk opisowych i podsumowujących ma długą historię i rzeczywiście proste zestawienie populacji i danych ekonomicznych było pierwszym sposobem, w jaki pojawił się temat statystyki . Niedawno, pod hasłem eksploracyjnej analizy danych, sformułowano zbiór technik podsumowujących : przykładem takiej techniki jest wykres pudełkowy .

W świecie biznesu statystyki opisowe stanowią przydatne podsumowanie wielu typów danych. Na przykład inwestorzy i brokerzy mogą korzystać z historycznego konta zachowania zwrotu, przeprowadzając analizy empiryczne i analityczne swoich inwestycji w celu podejmowania lepszych decyzji inwestycyjnych w przyszłości.

W analizie jednoczynnikowej

Analiza jednowymiarowa obejmuje opisanie rozkładu pojedynczej zmiennej, w tym jej tendencję centralną (w tym średnią , medianę i mody ) i rozproszenie (w tym zakres i kwartyle zbioru danych oraz miary rozrzutu, takie jak wariancja i odchylenie standardowe ). Kształt rozkładu można również opisać za pomocą wskaźników, takich jak skośność i kurtoza . Charakterystykę rozkładu zmiennej można również przedstawić w formie graficznej lub tabelarycznej, w tym histogramów i zobrazowania rdzenia i liścia .

Analiza dwuwymiarowa i wielowymiarowa

Gdy próbka składa się z więcej niż jednej zmiennej, do opisania relacji między parami zmiennych można wykorzystać statystyki opisowe. W tym przypadku statystyki opisowe obejmują:

Głównym powodem różnicowania analizy jednowymiarowej i dwuwymiarowej jest to, że analiza dwuwymiarowa jest nie tylko prostą analizą opisową, ale także opisuje związek między dwiema różnymi zmiennymi. Ilościowe miary zależności obejmują korelację (taką jak r Pearsona, gdy obie zmienne są ciągłe, lub rho Spearmana, jeśli jedna lub obie nie są) i kowariancję (która odzwierciedla mierzone zmienne ilościowe ). Nachylenie w analizie regresji odzwierciedla również związek między zmiennymi. Niestandaryzowane nachylenie wskazuje jednostkową zmianę zmiennej kryterium dla jednojednostkowej zmiany predyktora . Standaryzowane nachylenie wskazuje tę zmianę w jednostkach standaryzowanych ( z-score ). Dane o dużym przekrzywieniu są często przekształcane przez logarytmowanie. Zastosowanie logarytmów sprawia, że ​​wykresy są bardziej symetryczne i bardziej przypominają rozkład normalny , co ułatwia intuicyjną interpretację.

Bibliografia

Zewnętrzne linki