Analiza wariancji - Analysis of variance

Analiza wariancji ( ANOVA ) to zbiór modeli statystycznych i powiązanych z nimi procedur szacowania (takich jak „zmienność” między grupami i między grupami) używanych do analizy różnic między średnimi. ANOVA została opracowana przez statystyka Ronalda Fishera . ANOVA opiera się na prawie całkowitej wariancji , w którym obserwowana wariancja określonej zmiennej jest podzielona na składniki, które można przypisać różnym źródłom zmienności. W najprostszej formie, ANOVA dostarcza testu statystycznego , czy dwa lub więcej populacji środki są równe, a zatem uogólnia t -test poza dwoma sposobami.

Historia

Podczas gdy analiza wariancji doszła do skutku w XX wieku, według Stiglera jej poprzednicy sięgają wieków w przeszłość. Obejmują one testowanie hipotez, podział sum kwadratów, techniki eksperymentalne i model addytywny. Laplace przeprowadzał testowanie hipotez w latach siedemdziesiątych XVIII wieku. Około 1800 r. Laplace i Gauss opracowali metodę najmniejszych kwadratów do łączenia obserwacji, która ulepszyła metody stosowane wówczas w astronomii i geodezji. Zainicjował także wiele badań nad wkładami do sum kwadratów. Laplace wiedział, jak oszacować wariancję na podstawie resztkowej (a nie całkowitej) sumy kwadratów. Do 1827 roku Laplace używał metody najmniejszych kwadratów do rozwiązywania problemów ANOVA dotyczących pomiarów pływów atmosferycznych. Przed 1800 rokiem astronomowie wyodrębnili błędy obserwacyjne wynikające z czasów reakcji (" równanie osobiste ") i opracowali metody ich redukcji. Metody eksperymentalne stosowane w badaniu równania osobowego zostały później zaakceptowane przez rodzącą się dziedzinę psychologii, która rozwinęła silne (w pełni czynnikowe) metody eksperymentalne, do których wkrótce dodano randomizację i zaślepienie. Wymowne niematematyczne wyjaśnienie modelu efektów addytywnych było dostępne w 1885 roku.

Ronald Fisher wprowadził termin wariancja i zaproponował jego formalną analizę w artykule z 1918 r. The Correlation Between Relatives on the Supposition of Mendelian Inheritance . Jego pierwsze zastosowanie analizy wariancji zostało opublikowane w 1921 roku. Analiza wariancji stała się szeroko znana po tym, jak została uwzględniona w książce Fishera z 1925 roku Statistical Methods for Research Workers .

Modele randomizacji zostały opracowane przez kilku badaczy. Pierwsza została opublikowana w języku polskim przez Jerzego Neymana w 1923 roku.

Przykład

Brak dopasowania: młodzi kontra starzy, krótkowłosy kontra długowłosy
Sprawiedliwe dopasowanie: rasa zwierzęca vs pracująca i mniej atletyczna vs bardziej wysportowana
Bardzo dobre dopasowanie: waga według rasy

Analiza wariancji może być wykorzystana do opisu złożonych relacji między zmiennymi. Przykładem jest wystawa psów. Wystawa psów nie jest losową próbką rasy: zazwyczaj ogranicza się do psów dorosłych, rasowych i wzorowych. Histogram wagi psa z wystawy może być prawdopodobnie dość złożony, podobnie jak rozkład żółto-pomarańczowy pokazany na ilustracjach. Załóżmy, że chcieliśmy przewidzieć wagę psa na podstawie pewnego zestawu cech każdego psa. Jednym ze sposobów, aby to zrobić, jest wyjaśnienie rozkładu wag poprzez podzielenie populacji psów na grupy na podstawie tych cech. Pomyślne zgrupowanie spowoduje podział psów w taki sposób, że (a) każda grupa ma małą zmienność wagi psów (co oznacza, że ​​grupa jest stosunkowo jednorodna) oraz (b) średnia z każdej grupy jest różna (jeśli dwie grupy mają taką samą średnią, to nie jest uzasadnione stwierdzenie, że grupy są w rzeczywistości oddzielone w jakikolwiek znaczący sposób).

Na ilustracjach po prawej, grupy są oznaczone jako X 1 , X 2 , itd. Na pierwszej ilustracji psy są podzielone według iloczynu (interakcji) dwóch grup binarnych: młode vs stare i krótkowłose vs długie -włosy (np. grupa 1 to psy młode, krótkowłose, grupa 2 to psy młode, psy długowłose itp.). Ponieważ rozkłady masy psa w każdej z grup (zaznaczone na niebiesko) mają stosunkowo dużą zmienność, a średnie są bardzo podobne we wszystkich grupach, grupowanie psów według tych cech nie zapewnia skutecznego sposobu wyjaśnienia zmienności masy psa : wiedza, w której grupie jest pies, nie pozwala nam lepiej przewidzieć jego wagi niż po prostu wiedza, że ​​pies jest na wystawie. Tak więc to grupowanie nie wyjaśnia zmienności w ogólnym rozkładzie (żółto-pomarańczowy).

Próba wyjaśnienia rozkładu masy ciała poprzez pogrupowanie psów jako zwierząt domowych vs rasa pracująca i mniej atletycznych vs bardziej atletycznych byłaby prawdopodobnie nieco bardziej skuteczna (fair fit). Najcięższe psy wystawowe są prawdopodobnie dużymi, silnymi rasami pracującymi, podczas gdy rasy trzymane jako zwierzęta domowe są zwykle mniejsze, a przez to lżejsze. Jak pokazuje druga ilustracja, rozkłady mają wariancje, które są znacznie mniejsze niż w pierwszym przypadku, a średnie są bardziej rozróżnialne. Jednak na przykład znaczne nakładanie się rozkładów oznacza, że ​​nie możemy wiarygodnie odróżnić X 1 i X 2 . Grupowanie psów według rzutu monetą może dawać podobne rozkłady.

Próba wyjaśnienia wagi według rasy prawdopodobnie zapewni bardzo dobre dopasowanie. Wszystkie chihuahua są lekkie, a wszystkie bernardyny są ciężkie. Różnica w wadze seterów i wyżłów nie uzasadnia odrębnych ras. Analiza wariancji dostarcza formalnych narzędzi do uzasadnienia tych intuicyjnych osądów. Powszechnym zastosowaniem metody jest analiza danych eksperymentalnych lub opracowywanie modeli. Metoda ma pewne zalety w stosunku do korelacji: nie wszystkie dane muszą być liczbowe, a jednym z wyników metody jest ocena zaufania w relacji wyjaśniającej.

Klasy modeli

W analizie wariancji wykorzystywane są trzy klasy modeli, które zostały tutaj przedstawione.

Modele z efektami stałymi

Model z efektami stałymi (klasa I) analizy wariancji stosuje się do sytuacji, w których eksperymentator stosuje jeden lub więcej zabiegów na osobnikach eksperymentu, aby zobaczyć, czy wartości zmiennych odpowiedzi się zmieniają. Pozwala to eksperymentatorowi oszacować zakresy wartości zmiennych odpowiedzi, które leczenie wygeneruje w całej populacji.

Modele z efektami losowymi

Model efektów losowych (klasa II) jest stosowany, gdy zabiegi nie są ustalone. Dzieje się tak, gdy różne poziomy czynników są pobierane z większej populacji. Ponieważ same poziomy są zmiennymi losowymi , niektóre założenia i sposób kontrastowania zabiegów (wielozmienne uogólnienie prostych różnic) różnią się od modelu efektów stałych.

Modele z efektami mieszanymi

Model z efektami mieszanymi (klasa III) zawiera czynniki eksperymentalne zarówno typu efektów stałych, jak i losowych, z odpowiednio różnymi interpretacjami i analizami dla obu typów.

Przykład: Eksperymenty dydaktyczne mogą być przeprowadzane przez wydział college'u lub uniwersytetu w celu znalezienia dobrego podręcznika wprowadzającego, a każdy tekst jest traktowany jako leczenie. Model z efektami stałymi porównuje listę tekstów kandydujących. Model efektów losowych określiłby, czy istnieją istotne różnice pomiędzy listą losowo wybranych tekstów. Model mieszanych efektów porównuje (stałe) dotychczasowe teksty z losowo wybranymi alternatywami.

Definiowanie efektów stałych i losowych okazało się nieuchwytne, a konkurencyjne definicje prawdopodobnie prowadzą do językowego bagna.

Założenia

Analizę wariancji badano na podstawie kilku podejść, z których najpowszechniejsze wykorzystuje model liniowy, który odnosi odpowiedź na leczenie i bloki. Należy zauważyć, że model jest liniowy pod względem parametrów, ale może być nieliniowy na różnych poziomach czynników. Interpretacja jest łatwa, gdy dane są zrównoważone przez czynniki, ale w przypadku niezrównoważonych danych potrzebne jest znacznie głębsze zrozumienie.

Analiza podręcznika z wykorzystaniem rozkładu normalnego

Analizę wariancji można przedstawić za pomocą modelu liniowego , który przyjmuje następujące założenia dotyczące rozkładu prawdopodobieństwa odpowiedzi:

Odrębne założenia modelu podręcznikowego implikują, że błędy są niezależnie, identycznie i normalnie rozłożone dla modeli z efektami stałymi, to znaczy, że błędy ( ) są niezależne i

Analiza oparta na randomizacji

W randomizowanym kontrolowanym eksperymencie terapie są losowo przydzielane do jednostek doświadczalnych, zgodnie z protokołem eksperymentalnym. Ta randomizacja jest obiektywna i deklarowana przed przeprowadzeniem eksperymentu. Obiektywne losowe przypisanie jest używane do testowania istotności hipotezy zerowej , zgodnie z ideami CS Peirce'a i Ronalda Fishera . Ta oparta na projekcie analiza została omówiona i opracowana przez Francisa J. Anscombe'a ze Stacji Doświadczalnej Rothamsted oraz przez Oscara Kempthorne'a z Iowa State University . Kempthorne i jego uczniowie zakładają addytywność leczenia jednostkowego , co jest omówione w książkach Kempthorne'a i Davida R. Coxa .

Dodatek do obróbki jednostkowej

W swojej najprostszej postaci założenie addytywności jednostki do leczenia mówi, że obserwowaną odpowiedź jednostki doświadczalnej na leczenie można zapisać jako sumę odpowiedzi jednostki i efektu leczenia , czyli

Założenie addytywności do leczenia jednostkowego implikuje, że dla każdego zabiegu , ten zabieg ma dokładnie taki sam wpływ na każdą jednostkę doświadczalną.

Według Coxa i Kempthorne'a założenie o addytywności leczenia jednostkowego zazwyczaj nie może być bezpośrednio sfalsyfikowane . Jednak wiele konsekwencji addytywności w jednostkach uzdatniania może zostać sfałszowanych. W przypadku eksperymentu randomizowanego założenie addytywności w leczeniu jednostkowym oznacza, że wariancja jest stała dla wszystkich zabiegów. Dlatego też, kontrapozycji koniecznym warunkiem dla jednostki obróbki addytywności, że wariancja jest stała.

Stosowanie addytywności i randomizacji w leczeniu jednostkowym jest podobne do wnioskowania opartego na projekcie, które jest standardem w przypadku próbkowania w badaniu populacji skończonej .

Wyprowadzony model liniowy

Kempthorne wykorzystuje randomizację-dystrybucję i założenie o addytywności w leczeniu jednostkowym, aby stworzyć pochodny model liniowy , bardzo podobny do omawianego wcześniej modelu podręcznikowego. Statystyki testowe tego wyprowadzonego modelu liniowego są ściśle aproksymowane przez statystyki testowe odpowiedniego normalnego modelu liniowego, zgodnie z twierdzeniami aproksymacyjnymi i badaniami symulacyjnymi. Są jednak różnice. Na przykład analiza oparta na randomizacji daje niewielką, ale (ściśle) negatywną korelację między obserwacjami. W analizie opartej na randomizacji nie ma założenia o rozkładzie normalnym, a już na pewno nie ma założenia o niezależności . Wręcz przeciwnie, obserwacje są zależne !

Analiza oparta na randomizacji ma tę wadę, że jej przedstawienie wymaga żmudnej algebry i długiego czasu. Ponieważ analiza oparta na randomizacji jest skomplikowana i ściśle aproksymowana przez podejście wykorzystujące normalny model liniowy, większość nauczycieli kładzie nacisk na podejście oparte na normalnym modelu liniowym. Niewielu statystyków sprzeciwia się opartej na modelach analizie zrównoważonych eksperymentów randomizowanych.

Modele statystyczne dla danych obserwacyjnych

Jednak w przypadku zastosowania do danych z nierandomizowanych eksperymentów lub badań obserwacyjnych analiza oparta na modelu nie ma gwarancji randomizacji. W przypadku danych obserwacyjnych wyprowadzenie przedziałów ufności musi opierać się na modelach subiektywnych , co podkreśla Ronald Fisher i jego zwolennicy. W praktyce szacunkowe wyniki leczenia z badań obserwacyjnych są na ogół niespójne. W praktyce „modele statystyczne” i dane obserwacyjne są przydatne do sugerowania hipotez, które społeczeństwo powinno traktować bardzo ostrożnie.

Podsumowanie założeń

Analiza ANOVA oparta na modelu normalnym zakłada niezależność, normalność i jednorodność wariancji reszt. Analiza oparta na randomizacji zakłada jedynie jednorodność wariancji reszt (jako konsekwencję addytywności w traktowaniu jednostkowym) i wykorzystuje procedurę randomizacji eksperymentu. Obie te analizy wymagają homoskedastyczności jako założenia dla analizy modelu normalnego oraz jako konsekwencję randomizacji i addytywności dla analizy opartej na randomizacji.

Jednak badania procesów, które zmieniają wariancje, a nie średnie (tzw. efekty dyspersji) zostały z powodzeniem przeprowadzone za pomocą ANOVA. Nie ma koniecznych założeń dla ANOVA w jej pełnej ogólności, ale test F używany do testowania hipotez ANOVA ma założenia i praktyczne ograniczenia, które są przedmiotem ciągłego zainteresowania.

Problemy, które nie spełniają założeń ANOVA, mogą często zostać przekształcone w celu spełnienia założeń. Właściwość addytywności w leczeniu jednostkowym nie jest niezmienna w przypadku „zmiany skali”, więc statystycy często stosują przekształcenia w celu uzyskania addytywności w leczeniu jednostkowym. Jeżeli oczekuje się, że zmienna odpowiedzi będzie zgodna z parametryczną rodziną rozkładów prawdopodobieństwa, wówczas statystyk może określić (w protokole eksperymentu lub badania obserwacyjnego), że odpowiedzi należy przekształcić w celu ustabilizowania wariancji. Statystyk może również określić, że do odpowiedzi należy zastosować transformacje logarytmiczne, które, jak się uważa, są zgodne z modelem multiplikatywnym. Zgodnie z twierdzeniem o równaniu funkcyjnym Cauchy'ego , logarytm jest jedyną ciągłą transformacją, która przekształca rzeczywiste mnożenie w dodawanie.

Charakterystyka

ANOVA jest wykorzystywana w analizie eksperymentów porównawczych, czyli takich, w których interesuje tylko różnica w wynikach. Istotność statystyczną eksperymentu określa stosunek dwóch wariancji. Ten stosunek jest niezależny od kilku możliwych zmian w obserwacjach eksperymentalnych: dodanie stałej do wszystkich obserwacji nie zmienia istotności. Pomnożenie wszystkich obserwacji przez stałą nie zmienia znaczenia. Tak więc wynik istotności statystycznej ANOVA jest niezależny od stałego błędu systematycznego i błędów skalowania, jak również od jednostek użytych do wyrażania obserwacji. W erze obliczeń mechanicznych powszechne było odejmowanie stałej od wszystkich obserwacji (gdy było to równoznaczne z pominięciem wiodących cyfr), aby uprościć wprowadzanie danych. To jest przykład kodowania danych .

Logika

Obliczenia ANOVA można scharakteryzować jako obliczanie liczby średnich i wariancji, dzielenie dwóch wariancji i porównywanie stosunku do wartości podręcznika w celu określenia istotności statystycznej. Obliczenie efektu leczenia jest wówczas trywialne: „efekt dowolnego leczenia szacuje się, biorąc różnicę między średnią obserwacji, które otrzymały leczenie, a średnią ogólną”.

Podział sumy kwadratów

ANOVA wykorzystuje tradycyjną, ustandaryzowaną terminologię. Definicyjne równanie wariancji próbki to , gdzie dzielnik nazywa się stopniami swobody (DF), sumowanie nazywa się sumą kwadratów (SS), wynik nazywa się średnim kwadratem (MS), a kwadraty są odchyleniami od średnia próbki. ANOVA szacuje 3 wariancje próbki: całkowitą wariancję opartą na wszystkich odchyleniach obserwacji od średniej głównej, wariancję błędu opartą na wszystkich odchyleniach obserwacji od odpowiednich średnich leczenia i wariancję leczenia. Wariancja leczenia jest oparta na odchyleniach średnich leczenia od średniej, przy czym wynik mnoży się przez liczbę obserwacji w każdym leczeniu, aby uwzględnić różnicę między wariancją obserwacji a wariancją średnich.

Podstawową techniką jest podział sumy kwadratów SS na składowe związane z efektami zastosowanymi w modelu. Na przykład model uproszczonej ANOVA z jednym rodzajem leczenia na różnych poziomach.

Liczba stopni swobody DF może być podzielona w podobny sposób: jeden z tych składników (dla błędu) określa rozkład chi-kwadrat, który opisuje skojarzoną sumę kwadratów, podczas gdy to samo dotyczy „zabiegów”, jeśli istnieje brak efektu leczenia.

Zobacz także Niedopasowana suma kwadratów .

F -test

F -test służy do porównywania czynników całkowitego odchylenia. Na przykład w jednoczynnikowej lub jednoczynnikowej ANOVA istotność statystyczna jest testowana przez porównanie statystyki testu F

gdzie MS to średnia kwadratowa, = liczba zabiegów i = całkowita liczba przypadków

do rozkładu F z , stopniami swobody. Korzystanie z rozkładu F jest naturalnym kandydatem, ponieważ statystyka testowa jest stosunkiem dwóch przeskalowanych sum kwadratów, z których każda ma przeskalowany rozkład chi-kwadrat .

Oczekiwana wartość F to (gdzie oznacza wielkość próbki do obróbki), która wynosi 1 dla braku efektu obróbki. Gdy wartości F wzrastają powyżej 1, dowody są coraz bardziej niezgodne z hipotezą zerową. Dwie pozorne eksperymentalne metody zwiększania F polegają na zwiększeniu wielkości próbki i zmniejszeniu wariancji błędu dzięki ścisłej kontroli eksperymentalnej.

Istnieją dwie metody wnioskowania testu hipotezy ANOVA, z których obie dają ten sam wynik:

  • Podręcznikowa metoda polega na porównaniu obserwowanej wartości F z wartością krytyczną F wyznaczoną z tabel. Wartość krytyczna F jest funkcją stopni swobody licznika i mianownika oraz poziomu istotności (α). Jeśli F ≥ F Critical , hipoteza zerowa jest odrzucana.
  • Metoda komputerowa oblicza prawdopodobieństwo (wartość p) wartości F większej lub równej wartości obserwowanej. Hipoteza zerowa jest odrzucana, jeśli prawdopodobieństwo to jest mniejsze lub równe poziomowi istotności (α).

Wiadomo, że test ANOVA F jest prawie optymalny w sensie minimalizacji błędów fałszywie ujemnych dla ustalonego wskaźnika błędów fałszywie dodatnich (tj. maksymalizacji mocy dla stałego poziomu istotności). Na przykład, aby przetestować hipotezę, że różne zabiegi medyczne mają dokładnie taki sam skutek, F -test „s p -values ściśle zbliżenie próbom permutacja ” s wartości p : Przybliżenie jest szczególnie bliski, gdy projekt jest zrównoważony. Takie testy permutacyjne charakteryzują testy o maksymalnej mocy w stosunku do wszystkich alternatywnych hipotez , jak zaobserwował Rosenbaum. Test ANOVA F (hipotezy zerowej, że wszystkie zabiegi mają dokładnie ten sam efekt) jest zalecany jako test praktyczny, ze względu na jego odporność na wiele alternatywnych rozkładów.

Rozszerzona logika

ANOVA składa się z oddzielnych części; partycjonowanie źródeł wariancji i testowanie hipotez można stosować indywidualnie. ANOVA służy do obsługi innych narzędzi statystycznych. Regresji używa się najpierw do dopasowania bardziej złożonych modeli do danych, następnie ANOVA służy do porównywania modeli w celu wybrania prostych (r) modeli, które odpowiednio opisują dane. „Takie modele mogą być dopasowane bez żadnego odniesienia do ANOVA, ale narzędzia ANOVA mogą być następnie wykorzystane do zrozumienia dopasowanych modeli i przetestowania hipotez dotyczących partii współczynników”. „[Uważamy] analizę wariancji jako sposób rozumienia i konstruowania modeli wielopoziomowych – nie jako alternatywę dla regresji, ale jako narzędzie do podsumowywania złożonych wniosków wielowymiarowych…”

Dla jednego czynnika

Najprostszym eksperymentem odpowiednim do analizy ANOVA jest całkowicie randomizowany eksperyment z jednym czynnikiem. Bardziej złożone eksperymenty z jednym czynnikiem wiążą się z ograniczeniami randomizacji i obejmują całkowicie zrandomizowane bloki i kwadraty łacińskie (oraz warianty: kwadraty grecko-łacińskie itp.). Bardziej złożone eksperymenty mają wiele złożoności wielu czynników. Stosunkowo pełne omówienie analizy (modeli, podsumowania danych tabeli, ANOVA) z całkowicie randomizowanych eksperymentu jest dostępny .

Dla pojedynczego czynnika istnieją pewne alternatywy jednokierunkowej analizy wariancji; mianowicie heteroscedastycznego testu F Welcha heteroscedastycznego Test Welcha F z przyciętymi środków i Winsorized wariancji, test Brown-Forsythe, Alexander-Govern testy, James testu drugiego rzędu oraz testu Kruskala-Wallisa, dostępnego w onewaytests pakietu R .

Dla wielu czynników

ANOVA uogólnia badanie wpływu wielu czynników. Gdy eksperyment obejmuje obserwacje na wszystkich kombinacjach poziomów każdego czynnika, określa się go jako czynnik . Eksperymenty czynnikowe są bardziej wydajne niż seria eksperymentów jednoczynnikowych, a wydajność rośnie wraz ze wzrostem liczby czynników. W związku z tym projekty czynnikowe są intensywnie używane.

Zastosowanie ANOVA do badania wpływu wielu czynników jest komplikacją. W trójczynnikowej ANOVA z czynnikami x, y i z model ANOVA zawiera warunki dla efektów głównych (x, y, z) oraz warunki dla interakcji (xy, xz, yz, xyz). Wszystkie terminy wymagają testowania hipotez. Mnożenie się terminów interakcji zwiększa ryzyko, że niektóre testy hipotez przyniosą przypadkowo wynik fałszywie pozytywny. Na szczęście doświadczenie mówi, że interakcje wysokiego rzędu są rzadkie. Zdolność do wykrywania interakcji jest główną zaletą wieloczynnikowej analizy ANOVA. Testowanie jednego czynnika na raz ukrywa interakcje, ale daje pozornie niespójne wyniki eksperymentalne.

Zaleca się ostrożność podczas napotkania interakcji; Najpierw przetestuj terminy interakcji i rozszerz analizę poza ANOVA, jeśli zostaną znalezione interakcje. Teksty różnią się w swoich zaleceniach dotyczących kontynuacji procedury ANOVA po napotkaniu interakcji. Interakcje komplikują interpretację danych eksperymentalnych. Ani kalkulacje istotności, ani szacunkowe efekty leczenia nie mogą być przyjmowane w wartości nominalnej. „Istotna interakcja często maskuje znaczenie głównych efektów”. Zaleca się stosowanie metod graficznych w celu lepszego zrozumienia. Regresja jest często przydatna. Długa dyskusja na temat interakcji jest dostępna w Cox (1958). Niektóre interakcje można usunąć (przez przekształcenia), podczas gdy inne nie.

W celu zmniejszenia kosztów stosuje się różne techniki z wieloczynnikową ANOVA. Jedną z technik stosowanych w projektach czynnikowych jest minimalizacja replikacji (prawdopodobnie brak replikacji przy wsparciu sztuczek analitycznych ) i łączenie grup, gdy efekty okażą się statystycznie (lub praktycznie) nieistotne. Eksperyment z wieloma nieistotnymi czynnikami może zapaść się w jeden z kilkoma czynnikami wspieranymi przez wiele replikacji.

Powiązana analiza

Pewna analiza jest wymagana na poparcie projektu eksperymentu, podczas gdy inne analizy są przeprowadzane po formalnym stwierdzeniu, że zmiany czynników powodują statystycznie istotne zmiany w odpowiedziach. Ponieważ eksperymentowanie jest iteracyjne, wyniki jednego eksperymentu zmieniają plany kolejnych eksperymentów.

Analiza przygotowawcza

Liczba jednostek doświadczalnych

W projekcie eksperymentu planowana jest liczba jednostek doświadczalnych, aby spełnić cele eksperymentu. Eksperymenty są często sekwencyjne.

Wczesne eksperymenty są często projektowane w celu dostarczenia średnich bezstronnych oszacowań efektów leczenia i błędu eksperymentalnego. Późniejsze eksperymenty są często zaprojektowane w celu przetestowania hipotezy, że efekt leczenia ma ważną wielkość; w tym przypadku liczba jednostek eksperymentalnych jest dobierana tak, aby eksperyment mieścił się w budżecie i miał odpowiednią moc, między innymi.

Raportowanie analizy wielkości próby jest na ogół wymagane w psychologii. „Dostarcz informacje o wielkości próby i procesie, który doprowadził do podjęcia decyzji o wielkości próby”. Analiza, która jest zapisana w protokole z eksperymentu przed przeprowadzeniem eksperymentu, jest rozpatrywana we wnioskach o granty i administracyjnych komisjach odwoławczych.

Oprócz analizy mocy istnieją mniej formalne metody doboru liczby jednostek doświadczalnych. Należą do nich metody graficzne oparte na ograniczaniu prawdopodobieństwa błędów fałszywie ujemnych, metody graficzne oparte na oczekiwanym wzroście zmienności (powyżej reszt) oraz metody oparte na osiągnięciu pożądanego przedziału ufności.

Analiza mocy

Analiza mocy jest często stosowana w kontekście ANOVA w celu oceny prawdopodobieństwa pomyślnego odrzucenia hipotezy zerowej, jeśli przyjmiemy określony układ ANOVA, wielkość efektu w populacji, wielkość próby i poziom istotności. Analiza mocy może pomóc w projektowaniu badania poprzez określenie, jaka wielkość próbki byłaby wymagana, aby mieć rozsądną szansę odrzucenia hipotezy zerowej, gdy hipoteza alternatywna jest prawdziwa.

Rozmiar efektu

Zaproponowano kilka standaryzowanych miar efektu dla ANOVA, aby podsumować siłę związku między predyktorem (predyktorami) a zmienną zależną lub ogólną standaryzowaną różnicą pełnego modelu. Standaryzowane szacunki wielkości efektu ułatwiają porównywanie wyników badań i dyscyplin. Jednakże, podczas gdy standaryzowane wielkości efektu są powszechnie stosowane w większości literatury fachowej, dla celów raportowania preferowana może być niestandaryzowana miara wielkości efektu, która ma natychmiast „istotne” jednostki.

Potwierdzenie modelu

Czasami przeprowadzane są testy w celu ustalenia, czy założenia ANOVA wydają się być naruszone. Resztki są badane lub analizowane w celu potwierdzenia homoskedastyczności i ogólnej normalności. Reszty powinny mieć wygląd (zerowy średni rozkład normalny) szumu, gdy są wykreślane jako funkcja czegokolwiek, w tym czasu i modelowanych wartości danych. Trendy wskazują na interakcje między czynnikami lub między obserwacjami.

Testy uzupełniające

Po statystycznie istotnym efekcie w ANOVA często następują dodatkowe testy. Można to zrobić w celu oceny, które grupy różnią się od innych grup lub przetestowania różnych innych ukierunkowanych hipotez. Testy uzupełniające są często rozróżniane pod względem tego, czy są „planowane” ( a priori ) czy „post hoc ”. Planowane testy są określane przed spojrzeniem na dane, a testy post hoc powstają dopiero po zapoznaniu się z danymi (chociaż termin „post hoc” jest używany niekonsekwentnie).

Testy uzupełniające mogą być „prostymi” porównaniami parami średnich poszczególnych grup lub mogą być porównaniami „złożonymi” (np. porównywanie średniej z grup A, B i C do średniej grupy D). Porównania mogą również dotyczyć testów trendu, takich jak relacje liniowe i kwadratowe, gdy zmienna niezależna obejmuje uporządkowane poziomy. Często testy uzupełniające zawierają metodę dostosowania do problemu wielokrotnych porównań .

Projekty badań

Istnieje kilka rodzajów ANOVA. Wielu statystyków opiera ANOVA na projekcie eksperymentu , zwłaszcza na protokole, który określa losowe przypisanie terapii do badanych; opis mechanizmu przydziału w protokole powinien zawierać specyfikację struktury zabiegów i wszelkich blokad . Powszechnie stosuje się również ANOVA do danych obserwacyjnych przy użyciu odpowiedniego modelu statystycznego.

Niektóre popularne projekty wykorzystują następujące typy ANOVA:

  • Jednokierunkowa ANOVA służy do testowania różnic między dwiema lub większą liczbą niezależnych grup (średnich), np. różne poziomy aplikacji mocznika w uprawie lub różne poziomy działania antybiotyków na kilka różnych gatunków bakterii lub różne poziomy działania niektórych leków na grupach pacjentów. Jeśli jednak te grupy nie są niezależne i istnieje kolejność w grupach (np. łagodna, umiarkowana i ciężka choroba) lub w dawce leku (np. 5 mg/ml, 10 mg/ml, 20 mg /ml) podanej tej samej grupie pacjentów, należy zastosować estymację trendu liniowego . Zazwyczaj jednak jednoczynnikowa ANOVA jest używana do testowania różnic między co najmniej trzema grupami, ponieważ przypadek dwóch grup można objąć testem t . Gdy istnieją tylko dwa środki do porównania, test t-Studenta i ANOVA F -test są równoważne; związek między ANOVA i t jest określony wzorem F  =  t 2 .

Przestrogi

Zrównoważone eksperymenty (te z równą wielkością próby dla każdego zabiegu) są stosunkowo łatwe do interpretacji; niezrównoważone eksperymenty oferują większą złożoność. W przypadku jednoczynnikowej (jednokierunkowej) ANOVA korekta danych niezrównoważonych jest łatwa, ale analizie niezrównoważonej brakuje zarówno odporności, jak i mocy. W przypadku bardziej złożonych projektów brak równowagi prowadzi do dalszych komplikacji. „Własność ortogonalności głównych efektów i interakcji obecnych w zrównoważonych danych nie przenosi się na niezrównoważony przypadek. Oznacza to, że zwykła analiza technik wariancji nie ma zastosowania. W konsekwencji analiza niezrównoważonych silni jest znacznie trudniejsza niż w przypadku zrównoważonych projekty." W ogólnym przypadku „Analiza wariancji może być również zastosowana do niezrównoważonych danych, ale wtedy sumy kwadratów, średnich kwadratów i współczynników F będą zależeć od kolejności, w jakiej rozważane są źródła zmienności”.

ANOVA jest (częściowo) testem istotności statystycznej. Amerykańskie Towarzystwo Psychologiczne (i wiele innych organizacji) stoi na stanowisku, że samo zgłaszanie istotności statystycznej jest niewystarczające i preferowane jest zgłaszanie granic ufności.

Uogólnienia

ANOVA jest uważana za szczególny przypadek regresji liniowej, która z kolei jest szczególnym przypadkiem ogólnego modelu liniowego . Wszystkie obserwacje są uważane za sumę modelu (dopasowanie) i resztkę (błąd), aby zminimalizować.

Test Kruskala–Wallisa i test Friedmana są testami nieparametrycznymi , które nie opierają się na założeniu normalności.

Połączenie z regresją liniową

Poniżej wyjaśniamy związek między wieloczynnikową ANOVA a regresją liniową.

Liniowa zmiana kolejności danych tak, aby obserwacja była powiązana z odpowiedzią i czynnikami, gdzie oznacza różne czynniki i jest całkowitą liczbą czynników. W jednoczynnikowej ANOVA i dwukierunkowej ANOVA . Ponadto zakładamy, że czynnik ma poziomy, a mianowicie . Teraz możemy jednorazowo zakodować czynniki do wektora wymiarowego .

Funkcja kodowania „one-hot” jest zdefiniowana w taki sposób, że wpis is

Wektor jest konkatenacją wszystkich powyższych wektorów dla all . Tak więc . Aby otrzymać w pełni ogólną analizę ANOVA interakcji, musimy również skonkatenować każdy dodatkowy składnik interakcji w wektorze, a następnie dodać składnik wyrazu wolnego. Niech ten wektor będzie .

Dzięki tej notacji mamy teraz dokładny związek z regresją liniową. Po prostu regresujemy odpowiedź w stosunku do wektora . Jednak istnieją obawy dotyczące możliwości identyfikacji . Aby rozwiązać te problemy, zakładamy, że suma parametrów w każdym zestawie interakcji jest równa zeru. Stąd można użyć statystyki F lub innych metod, aby określić istotność poszczególnych czynników.

Przykład

Możemy rozważyć przykład interakcji dwukierunkowej, w którym zakładamy, że pierwszy czynnik ma 2 poziomy, a drugi czynnik ma 3 poziomy.

Zdefiniuj czy i jeśli , tj. jest kodowaniem typu „hot hot” pierwszego czynnika i kodowaniem typu „hot hot” drugiego czynnika.

Z tym,

gdzie ostatni termin jest terminem przechwyconym. Dla bardziej konkretnego przykładu załóżmy, że
Następnie,

Zobacz też

Przypisy

Uwagi

Bibliografia

Dalsza lektura

Zewnętrzne linki