Statystyki szacunków - Estimation statistics

Statystyka estymacji lub po prostu szacowanie to struktura analizy danych, która wykorzystuje kombinację wielkości efektów , przedziałów ufności , precyzyjnego planowania i metaanalizy do planowania eksperymentów, analizowania danych i interpretacji wyników. Różni się od testowania istotności hipotezy zerowej (NHST), które uważa się za mniej informacyjne. Statystyka estymacji jest również znana jako nowa statystyka w dziedzinie psychologii , badań medycznych , nauk przyrodniczych i innych nauk eksperymentalnych, gdzie NHST nadal pozostaje dominująca, pomimo przeciwnych zaleceń od kilkudziesięciu lat.

Podstawowym celem metod estymacji jest zgłaszanie wielkości efektu ( oszacowanie punktowe ) wraz z jego przedziałem ufności , który jest związany z precyzją oszacowania. Przedział ufności podsumowuje zakres prawdopodobnych wartości podstawowego efektu populacji. Zwolennicy estymacji postrzegają raportowanie wartości P jako nieprzydatne odwrócenie uwagi od ważnego biznesu, jakim jest raportowanie wielkości efektu z jego przedziałami ufności, i uważają, że estymacja powinna zastąpić testowanie istotności w analizie danych. Jest to jednak mylące, ponieważ wartości p i przedziały ufności są dwiema stronami tego samego medalu i dostarczają tego samego rodzaju informacji.

Historia

Począwszy od 1929 r. fizyk Raymond Thayer Birge publikował artykuły przeglądowe, w których używał metod średnich ważonych do obliczania szacunków stałych fizycznych, procedury, którą można uznać za prekursora współczesnej metaanalizy .

W latach 60. statystyki estymacji zostały przyjęte przez nauki niefizyczne wraz z opracowaniem standaryzowanej wielkości efektu przez Jacoba Cohena .

W latach 70. pionierem nowoczesnej syntezy badań był Gene V. Glass wraz z pierwszym przeglądem systematycznym i metaanalizą psychoterapii. Ta pionierska praca wpłynęła następnie na przyjęcie metaanaliz w bardziej ogólnym leczeniu medycznym.

W latach 80. i 90. metody szacowania zostały rozszerzone i udoskonalone przez biostatystyków, w tym Larry'ego Hedgesa , Michaela Borensteina, Douga Altmana , Martina Gardnera i wielu innych, wraz z rozwojem nowoczesnej (medycznej) metaanalizy .

Począwszy od lat 80. przegląd systematyczny , stosowany w połączeniu z metaanalizą, stał się techniką szeroko stosowaną w badaniach medycznych. W PubMed znajduje się ponad 200 000 cytowań do „metaanalizy” .

W latach 90. redaktor Kenneth Rothman zakazał stosowania wartości p z czasopisma Epidemiology ; zgodność była wysoka wśród autorów, ale nie zmieniło to istotnie ich myślenia analitycznego.

W 2010 roku Geoff Cumming opublikował podręcznik poświęcony statystykom szacowania, wraz z oprogramowaniem w Excelu zaprojektowanym do nauczania myślenia opartego na efektach, przede wszystkim dla psychologów. Również w 2010 roku metody szacowania były coraz częściej stosowane w neuronauce.

W 2013 r. Podręcznik publikacji Amerykańskiego Towarzystwa Psychologicznego zalecał szacowanie zamiast testowania hipotez. Również w 2013 r. w dokumencie Uniform Requirements for Manuscripts Submitted to Biomedical Journals sformułowano podobne zalecenie: „Unikaj polegania wyłącznie na testowaniu hipotez statystycznych, takich jak wartości P, które nie przekazują ważnych informacji o wielkości efektu”.

W 2019 r. czasopismo Society for Neuroscience eNeuro ustanowiło politykę zalecającą stosowanie grafik szacunkowych jako preferowanej metody prezentacji danych.

Pomimo powszechnego przyjęcia metaanalizy w badaniach klinicznych i zaleceń kilku głównych instytucji wydawniczych, ramy szacowania nie są rutynowo stosowane w pierwotnych badaniach biomedycznych.

Metodologia

Wiele testów istotności ma odpowiednik oszacowania; w prawie każdym przypadku wynik testu (lub jego wartość p ) można po prostu zastąpić wielkością efektu i oszacowaniem precyzji. Na przykład, zamiast używać testu t-Studenta , analityk może porównać dwie niezależne grupy, obliczając średnią różnicę i jej 95% przedział ufności . Odpowiednie metody można wykorzystać do sparowanego testu t i wielokrotnych porównań. Podobnie w przypadku analizy regresji analityk podałby współczynnik determinacji (R 2 ) i równanie modelu zamiast wartości p modelu.

Zwolennicy statystyk szacunkowych ostrzegają jednak przed podawaniem tylko kilku liczb. Raczej zaleca się analizę i prezentację danych za pomocą wizualizacji danych. Przykłady odpowiednich wizualizacji obejmują wykres punktowy dla regresji oraz wykresy Gardnera-Altmana dla dwóch niezależnych grup. Podczas gdy wykresy grup danych historycznych (wykresy słupkowe, pudełkowe i wykresy skrzypcowe) nie przedstawiają porównania, wykresy estymacji dodają drugą oś, aby wyraźnie zobrazować wielkość efektu.

Fabuła Gardnera-Altmana. Po lewej: konwencjonalny wykres słupkowy, wykorzystujący gwiazdki do pokazania, że ​​różnica jest „istotna statystycznie”. Po prawej: wykres Gardnera-Altmana, który pokazuje wszystkie punkty danych wraz ze średnią różnicą i jej przedziałami ufności.

Działka Gardnera-Altmana

Wykres średniej różnicy Gardnera-Altmana został po raz pierwszy opisany przez Martina Gardnera i Douga Altmana w 1986 roku; jest to wykres statystyczny przeznaczony do wyświetlania danych z dwóch niezależnych grup. Istnieje również wersja odpowiednia dla sparowanych danych . Kluczowe instrukcje tworzenia tego wykresu są następujące: (1) wyświetl wszystkie obserwowane wartości dla obu grup obok siebie; (2) umieścić drugą oś po prawej stronie, przesuniętą tak, aby pokazać skalę różnicy średniej; oraz (3) wykreślić średnią różnicę z jej przedziałem ufności jako marker ze słupkami błędów. Wykresy Gardnera-Altmana można generować za pomocą DABEST-Python lub dabestr ; alternatywnie analityk może korzystać z oprogramowania GUI, takiego jak aplikacja Estimation Stats .

Fabuła Cumminga. Wykres Cumminga renderowany przez aplikację sieci Web EstimationStats . W górnym panelu pokazane są wszystkie obserwowane wartości. Wielkości efektów, rozkład próbkowania i 95% przedziały ufności są wykreślone na osobnych osiach pod surowymi danymi. Dla każdej grupy pomiary sumaryczne (średnia ± odchylenie standardowe) są rysowane jako linie z przerwami.

Cumming fabuła

W przypadku wielu grup Geoff Cumming wprowadził użycie panelu drugorzędowego do wykreślenia dwóch lub więcej średnich różnic i ich przedziałów ufności, umieszczonych poniżej panelu obserwowanych wartości; taki układ umożliwia łatwe porównanie średnich różnic („delt”) w kilku grupach danych. Cumming Działki mogą być generowane z pakietu ESCI , DABEST , albo Oszacowanie Statystyki aplikacji .

Inne metodologie

Oprócz średniej różnicy istnieje wiele innych rodzajów wielkości efektu , wszystkie z względnymi korzyściami. Główne typy obejmują wielkości efektu w klasie standaryzowanych metryk d -Cohena oraz współczynnik determinacji (R 2 ) do analizy regresji . W przypadku rozkładów innych niż normalne istnieje szereg bardziej niezawodnych rozmiarów efektów , w tym delta Cliffa i statystyka Kołmogorowa-Smirnowa .

Błędy w testowaniu hipotez

W testowaniu hipotez głównym celem obliczeń statystycznych jest uzyskanie wartości p , prawdopodobieństwa zobaczenia uzyskanego wyniku lub bardziej ekstremalnego wyniku, przy założeniu, że hipoteza zerowa jest prawdziwa. Jeśli wartość p jest niska (zwykle < 0,05), praktyka statystycznego zachęca się do odrzucenia hipotezy zerowej. Zwolennicy estymacji odrzucają zasadność testowania hipotez między innymi z następujących powodów:

  • Wartości P są łatwo i powszechnie błędnie interpretowane. Na przykład wartość p jest często błędnie uważana za „prawdopodobieństwo, że hipoteza zerowa jest prawdziwa”.
  • Hipoteza zerowa jest zawsze błędna dla każdego zestawu obserwacji: zawsze istnieje jakiś efekt, nawet jeśli jest on znikomy.
  • Testowanie hipotez daje arbitralnie dychotomiczne odpowiedzi tak-nie, jednocześnie odrzucając ważne informacje o wielkości.
  • Każda specyficzna wartość p powstaje na skutek oddziaływania na wielkość efektu , przez wielkość próbki (przy niezmienionych większy rozmiar próbki daje mniejszą wartość p) i błąd próbkowania.
  • Symulacja przy niskiej mocy pokazuje, że błąd próbkowania powoduje, że wartości p są niezwykle zmienne.

Korzyści ze statystyk estymacji

Zalety przedziałów ufności

Przedziały ufności zachowują się w przewidywalny sposób. Z definicji 95% przedziały ufności mają 95% szansy na pokrycie podstawowej średniej populacji (μ). Ta cecha pozostaje stała wraz ze wzrostem wielkości próbki; zmienia się to, że interwał staje się mniejszy. Ponadto 95% przedziały ufności są również 83% przedziałami predykcji: jeden (przed eksperymentalny) przedział ufności ma 83% szans na pokrycie średniej dowolnego przyszłego eksperymentu. W związku z tym znajomość 95% przedziałów ufności pojedynczego eksperymentu daje analitykowi rozsądny zakres średniej populacji. Niemniej jednak rozkłady ufności i rozkłady a posteriori dostarczają o wiele więcej informacji niż oszacowanie jednopunktowe lub przedziały, które mogą zaostrzyć myślenie dychotomiczne zgodnie z przedziałem obejmującym lub nie obejmujący „zerową” wartość zainteresowania (tj. zachowanie indukcyjne Neymana w przeciwieństwie do do tego Fishera).

Statystyki oparte na dowodach

Badania psychologiczne postrzegania statystyk pokazują, że szacunki przedziałów raportowania pozostawiają dokładniejsze postrzeganie danych niż raportowanie wartości p.

Precyzyjne planowanie

Precyzja oszacowania jest formalnie zdefiniowana jako 1/ wariancja i podobnie jak moc wzrasta (poprawia się) wraz ze wzrostem wielkości próby. Podobnie jak moc , wysoki poziom precyzji jest kosztowny; W idealnym przypadku wnioski o granty badawcze obejmowałyby analizę precyzyjną/kosztową. Zwolennicy estymacji uważają, że precyzyjne planowanie powinno zastąpić moc, ponieważ sama moc statystyczna jest koncepcyjnie powiązana z testowaniem istotności. Precyzyjne planowanie można wykonać za pomocą aplikacji internetowej ESCI .

Zobacz też

Bibliografia