Niewłaściwe wykorzystanie statystyk - Misuse of statistics

Statystyki użyte w mylący sposób mogą skłonić zwykłego obserwatora do uwierzenia w coś innego niż to, co pokazują dane . Oznacza to, że nadużycie statystyk ma miejsce, gdy argument statystyczny potwierdza fałsz . W niektórych przypadkach niewłaściwe użycie może być przypadkowe. W innych jest to celowe i dla korzyści sprawcy. Gdy dana przyczyna statystyczna jest fałszywa lub niewłaściwie zastosowana, stanowi to błąd statystyczny .

Pułapka fałszywych statystyk może być bardzo szkodliwa dla poszukiwania wiedzy. Na przykład w naukach medycznych naprawienie fałszu może zająć dziesiątki lat i kosztować życie.

Łatwo wpaść w nadużycia. Profesjonalni naukowcy, nawet matematycy i zawodowi statystycy, mogą dać się oszukać nawet prostymi metodami, nawet jeśli starają się wszystko sprawdzić. Wiadomo, że naukowcy oszukują się statystykami z powodu braku znajomości teorii prawdopodobieństwa i braku standaryzacji swoich testów .

Definicja, ograniczenia i kontekst

Jedna użyteczna definicja to: „Nadużywanie statystyk: Używanie liczb w taki sposób, że – albo przez zamierzenie, albo przez ignorancję lub niedbalstwo – wnioski są nieuzasadnione lub błędne”. „Liczby” zawierają wprowadzającą w błąd grafikę omówioną gdzie indziej. Termin ten nie jest powszechnie spotykany w tekstach statystycznych i nie jest znana żadna autorytatywna definicja. Jest to uogólnienie kłamstwa ze statystyką, które przed 60 laty zostało bogato opisane na przykładach statystyków.

Definicja napotyka pewne problemy (niektóre są adresowane przez źródło):

  1. Statystyka zwykle daje prawdopodobieństwa; wnioski są tymczasowe
  2. Wstępne wnioski zawierają błędy i poziomy błędów. Zwykle 5% wstępnych wniosków z testów istotności jest błędnych
  3. Statystycy nie są w pełni zgodni co do idealnych metod
  4. Metody statystyczne opierają się na założeniach, które rzadko są w pełni spełnione
  5. Gromadzenie danych jest zwykle ograniczone ograniczeniami etycznymi, praktycznymi i finansowymi.

How to Lie with Statistics potwierdza, że ​​statystyki mogą zgodnie z prawem przybierać różne formy. Bez względu na liczby można dyskutować, czy statystyki pokazują, że produkt jest „lekki i ekonomiczny”, czy „cienki i tani”. Niektórzy sprzeciwiają się zastąpieniu przywództwa moralnego (na przykład) poprawnością statystyczną jako celu. Przypisywanie winy za nadużycia jest często trudne, ponieważ naukowcy, ankieterzy, statystycy i reporterzy są często pracownikami lub konsultantami.

Podstępne nadużycie(?) statystyk zostaje dopełnione przez słuchacza/obserwatora/publiczność/jurora. Dostawca udostępnia „statystyki” w postaci liczb lub grafik (lub przed/po zdjęciach), co pozwala konsumentowi na wyciągnięcie (ewentualnie nieuzasadnionych lub błędnych) wniosków. Słaby stan znajomości statystyki publicznej i niestatystyczna natura ludzkiej intuicji pozwalają wprowadzać w błąd bez jednoznacznego formułowania błędnych wniosków. Definicja odpowiedzialności konsumenta statystyk jest słaba.

Historyk wymienił ponad 100 błędów w kilkunastu kategoriach, w tym uogólnienia i przyczynowości. Kilka błędów jest jawnie lub potencjalnie statystycznych, w tym próbkowanie, nonsens statystyczny, prawdopodobieństwo statystyczne, fałszywa ekstrapolacja, fałszywa interpolacja i podstępne uogólnienie. Wszystkie techniczne/matematyczne problemy prawdopodobieństwa stosowanego pasowałyby do jednego wymienionego błędu prawdopodobieństwa statystycznego. Wiele błędów można powiązać z analizą statystyczną, co pozwala na wyciągnięcie fałszywych wniosków wynikających z nienagannej analizy statystycznej.

Przykładem wykorzystania statystyki jest analiza badań medycznych. Proces obejmuje planowanie eksperymentu, przeprowadzenie eksperymentu, analizę danych, wyciąganie logicznych wniosków oraz prezentację/raportowanie. Raport jest podsumowywany przez prasę popularną i przez reklamodawców. Nadużycia statystyk mogą wynikać z problemów na każdym etapie procesu. Standardy statystyczne narzucone idealnie raportowi naukowemu znacznie różnią się od tych narzuconych prasie popularnej i reklamodawcom; istnieją jednak przypadki reklamy przebranej za naukę . Definicja nadużycia statystyk jest słaba, jeśli chodzi o wymaganą kompletność sprawozdawczości statystycznej. Wyraża się opinię, że gazety muszą dostarczać przynajmniej źródło raportowanych statystyk.

Proste przyczyny

Wiele nadużyć statystyk ma miejsce, ponieważ

  • Źródłem jest ekspert merytoryczny, a nie ekspert statystyczny. Źródło może nieprawidłowo użyć metody lub zinterpretować wynik.
  • Źródłem jest statystyk, a nie ekspert w danej dziedzinie. Ekspert powinien wiedzieć, kiedy porównywane liczby opisują różne rzeczy. Liczby zmieniają się, a rzeczywistość nie zmienia się, gdy zmieniają się definicje prawne lub granice polityczne.
  • Badany przedmiot nie jest dobrze zdefiniowany. Chociaż testy IQ są dostępne i numeryczne, trudno jest określić, co mierzą; Inteligencja to nieuchwytna koncepcja. Publikowanie „wpływu” ma ten sam problem. Z pozoru proste pytanie o liczbę słów w języku angielskim od razu natrafia na pytania o archaiczne formy, uwzględnianie przedrostków i przyrostków, wielorakie definicje słowa, warianty pisowni, dialekty, wymyślne twory (jak ektoplazmy z ektoplazmy i statystyki), słownictwo techniczne ...
  • Jakość danych jest niska. Przykładem jest odzież. Ludzie mają szeroką gamę rozmiarów i kształtów ciała. Oczywiste jest, że rozmiary odzieży muszą być wielowymiarowe. Zamiast tego jest złożony w nieoczekiwany sposób. Niektóre ubrania są sprzedawane tylko według rozmiaru (bez wyraźnego uwzględnienia kształtu ciała), rozmiary różnią się w zależności od kraju i producenta, a niektóre rozmiary są celowo mylące. Chociaż rozmiary są numeryczne, możliwe są tylko najbardziej prymitywne analizy statystyczne przy użyciu liczb rozmiaru z rozwagą.
  • Popularna prasa ma ograniczoną wiedzę fachową i mieszane motywy. Jeśli fakty nie są „warte opublikowania” (co może wymagać przesady), nie można ich opublikować. Motywy reklamodawców są jeszcze bardziej mieszane.
  • „Politycy używają statystyk w taki sam sposób, w jaki pijak używa latarni – dla wsparcia, a nie iluminacji” – Andrew Lang (WikiQuote) „Czego uczymy się z tych dwóch sposobów patrzenia na te same liczby? Dowiadujemy się, że sprytny propagandysta , prawica czy lewa, prawie zawsze może znaleźć sposób na przedstawienie danych o wzroście gospodarczym, które wydają się wspierać jej tezę. Dlatego też z garściami soli uczymy się czerpać wszelkie analizy statystyczne z silnie politycznego źródła”. Termin statystyka pochodzi od liczb generowanych i wykorzystywanych przez państwo. Dobry rząd może wymagać dokładnych liczb, ale popularny rząd może wymagać liczb pomocniczych (niekoniecznie takich samych). „Wykorzystywanie i nadużywanie statystyk przez rządy to starożytna sztuka”.

Rodzaje nadużyć

Odrzucanie niekorzystnych obserwacji

Wszystko, co firma musi zrobić, aby promować neutralny (bezużyteczny) produkt, to znaleźć lub przeprowadzić, na przykład, 40 badań z poziomem ufności 95%. Jeśli produkt jest naprawdę bezużyteczny, to średnio dałoby to jedno badanie pokazujące, że produkt był korzystny, jedno badanie pokazujące, że był szkodliwy i trzydzieści osiem niejednoznacznych badań (38 to 95% z 40). Ta taktyka staje się tym bardziej skuteczna, im więcej dostępnych jest badań. Organizacje, które nie publikują wszystkich przeprowadzonych badań, takie jak firmy tytoniowe zaprzeczające powiązaniu między paleniem a rakiem, grupy popierające antynikotynizm i media próbujące udowodnić związek między paleniem a różnymi dolegliwościami lub sprzedawcy cudownych pigułek, prawdopodobnie użyj tej taktyki.

Ronald Fisher rozważał tę kwestię w swoim słynnym, przykładowym eksperymencie degustującym herbatę (z jego książki z 1935 r., Projekt eksperymentów ). Odnosząc się do powtarzających się eksperymentów, powiedział: „Byłoby to oczywiście bezprawne i pozbawiłoby nasze kalkulacje podstaw, gdyby nie wszystkie nieudane wyniki zostały uwzględnione w rachunku”.

Innym pojęciem związanym z tą koncepcją jest zbieranie wisienek .

Ignorowanie ważnych funkcji

Wielowymiarowe zbiory danych mają co najmniej dwie funkcje/wymiary . Jeśli do analizy wybrano zbyt mało z tych cech (na przykład, jeśli wybrano tylko jedną cechę i wykonano prostą regresję liniową zamiast wielokrotnej regresji liniowej ), wyniki mogą być mylące. To pozostawia analityka podatnego na dowolny z różnych paradoksów statystycznych , lub w niektórych (nie wszystkich) przypadkach na fałszywą przyczynowość, jak poniżej.

Załadowane pytania

Często można manipulować odpowiedziami w ankietach, formułując pytanie w taki sposób, aby skłonić respondenta do przewagi nad daną odpowiedzią. Na przykład w głosowaniu poparcia dla wojny pytania:

  • Czy popierasz usiłowanie Stanów Zjednoczonych, by w inne miejsca na świecie nieść wolność i demokrację?
  • Czy popierasz niesprowokowaną akcję militarną USA?

prawdopodobnie spowoduje, że dane będą przekrzywione w różnych kierunkach, chociaż obaj badają poparcie dla wojny. Lepszym sposobem sformułowania pytania mogłoby być „Czy popierasz obecną akcję wojskową USA za granicą?” Jeszcze bardziej neutralny sposób postawienia tego pytania brzmi: „Jaki jest twój pogląd na obecne działania militarne USA za granicą?”. Chodzi o to, aby osoba pytana nie miała możliwości odgadnięcia ze sformułowania tego, co pytający może chcieć usłyszeć.

Innym sposobem na to jest poprzedzenie pytania informacjami, które wspierają „pożądaną” odpowiedź. Na przykład, więcej osób prawdopodobnie odpowie „tak” na pytanie „Biorąc pod uwagę rosnące obciążenie podatkami rodzin z klasy średniej, czy popierasz obniżki podatku dochodowego?” niż na pytanie „Biorąc pod uwagę rosnący deficyt budżetu federalnego i rozpaczliwą potrzebę zwiększenia dochodów, czy popierasz cięcia w podatku dochodowym?”

Właściwe formułowanie pytań może być bardzo subtelne. Odpowiedzi na dwa pytania mogą się znacznie różnić w zależności od kolejności ich zadawania. „Ankieta, w której zapytano o „własność akcji”, wykazała, że ​​większość teksańskich ranczerów posiadała akcje, choć prawdopodobnie nie były to akcje notowane na giełdzie nowojorskiej”.

Nadmierna generalizacja

Nadmierne uogólnienie jest błędem pojawiającym się, gdy twierdzi się, że statystyki dotyczące konkretnej populacji dotyczą członków grupy, dla której pierwotna populacja nie jest reprezentatywną próbą.

Załóżmy na przykład, że latem 100% jabłek jest czerwonych. Stwierdzenie „Wszystkie jabłka są czerwone” byłoby przykładem nadmiernego uogólnienia, ponieważ pierwotna statystyka była prawdziwa tylko dla określonego podzbioru jabłek (tych w lecie), który nie powinien być reprezentatywny dla całej populacji jabłek.

Prawdziwy przykład błędu nadmiernej generalizacji można zaobserwować jako artefakt nowoczesnych technik głosowania, które zabraniają dzwonienia na telefony komórkowe w celu przeprowadzenia przez telefon sondaży politycznych. Ponieważ młodzi ludzie częściej niż inne grupy demograficzne nie mają konwencjonalnego telefonu „stacjonarnego”, sondaż telefoniczny, w którym przeprowadza się wyłącznie ankiety na telefony stacjonarne, może spowodować, że wyniki sondażu będą zaniżać poglądy młodych ludzi, jeśli nie zostaną podjęte żadne inne środki aby uwzględnić to skrzywienie pobierania próbek. Tak więc sondaż badający preferencje wyborcze młodych ludzi stosujących tę technikę może nie być idealnie dokładnym przedstawieniem prawdziwych preferencji wyborczych młodych ludzi jako całości bez nadmiernego uogólniania, ponieważ użyta próba wyklucza młodych ludzi, którzy mają tylko telefony komórkowe, którzy mogą lub może nie mieć preferencji głosowania, które różnią się od reszty populacji.

Do nadmiernego uogólnienia dochodzi często, gdy informacje są przekazywane za pośrednictwem źródeł nietechnicznych, w szczególności środków masowego przekazu.

Próbki stronnicze

Naukowcy nauczyli się dużym kosztem, że zebranie dobrych danych eksperymentalnych do analizy statystycznej jest trudne. Przykład: Efekt placebo (umysł nad ciałem) jest bardzo silny. 100% badanych rozwinęło wysypkę po ekspozycji na obojętną substancję, która była fałszywie nazywana trującym bluszczem, podczas gdy niewielu rozwinęło wysypkę na "nieszkodliwy" przedmiot, który w rzeczywistości był trującym bluszczem. Naukowcy zwalczają ten efekt poprzez podwójnie ślepe, randomizowane eksperymenty porównawcze . Statystycy zazwyczaj bardziej martwią się o wiarygodność danych niż o analizę. Znajduje to odzwierciedlenie w dziedzinie badań statystycznych znanej jako projektowanie eksperymentów .

Ankieterzy nauczyli się dużym kosztem, że zebranie dobrych danych ankietowych do analizy statystycznej jest trudne. Jednym z potencjalnych przykładów jest selektywny wpływ telefonów komórkowych na zbieranie danych (omówiony w sekcji Overgeneralization); Jeśli młodzi ludzie z tradycyjnymi telefonami nie są reprezentatywni, próba może być stronnicza. Ankiety próbne mają wiele pułapek i wymagają dużej staranności w ich wykonaniu. Jeden wysiłek wymagał prawie 3000 połączeń telefonicznych, aby uzyskać 1000 odpowiedzi. Prosta losowa próbka populacji „nie jest prosta i może nie być losowa”.

Błędne raportowanie lub niezrozumienie oszacowanego błędu

Jeśli zespół badawczy chce wiedzieć, jak 300 milionów ludzi myśli na dany temat, niepraktyczne byłoby pytać ich wszystkich. Jeśli jednak zespół wybierze losową próbkę około 1000 osób, może być całkiem pewien, że wyniki podane przez tę grupę są reprezentatywne dla tego, co powiedziałaby większa grupa, gdyby wszyscy zostali zapytani.

Ta pewność może być faktycznie określona ilościowo za pomocą centralnego twierdzenia granicznego i innych wyników matematycznych. Zaufanie wyraża się jako prawdopodobieństwo, że prawdziwy wynik (dla większej grupy) będzie mieścił się w pewnym zakresie oszacowania (wartość dla mniejszej grupy). Jest to liczba „plus lub minus” często przytaczana w badaniach statystycznych. Część prawdopodobieństwa poziomu ufności zwykle nie jest wymieniana; jeśli tak, zakłada się, że jest to standardowa liczba, np. 95%.

Te dwie liczby są ze sobą powiązane. Jeśli badanie ma szacowany błąd ±5% przy 95% ufności, ma również szacowany błąd ±6,6% przy 99% ufności. ± % przy ufności 95% to zawsze ± % przy ufności 99% dla populacji o rozkładzie normalnym.

Im mniejszy oszacowany błąd, tym większa wymagana próba przy danym poziomie ufności; na przykład przy 95,4% pewności:

  • ±1% wymagałoby 10 000 osób.
  • ±2% wymagałoby 2500 osób.
  • ±3% wymagałoby 1111 osób.
  • ±4% wymagałoby 625 osób.
  • ±5% wymagałoby 400 osób.
  • ±10% wymagałoby 100 osób.
  • ±20% wymagałoby 25 osób.
  • ±25% wymagałoby 16 osób.
  • ±50% wymagałoby 4 osób.

Ponieważ pominięto wartość ufności, ludzie mogą założyć, że istnieje 100% pewność, że prawdziwy wynik mieści się w szacowanym błędzie. To nie jest matematycznie poprawne.

Wiele osób może nie zdawać sobie sprawy, że losowość próby jest bardzo ważna. W praktyce wiele sondaży jest prowadzonych przez telefon, co zniekształca próbę na kilka sposobów, m.in. wykluczając osoby, które nie mają telefonów, faworyzując włączanie osób, które mają więcej niż jeden telefon, faworyzując włączanie osób, które chcą uczestniczyć w sondażu telefonicznym nad tymi, którzy odmawiają, itp. Nielosowe pobieranie próbek sprawia, że ​​oszacowany błąd jest niewiarygodny.

Z drugiej strony ludzie mogą uważać, że statystyki są z natury niewiarygodne, ponieważ nie wszyscy są wzywani lub ponieważ sami nigdy nie są ankietowani. Ludzie mogą pomyśleć, że nie da się uzyskać danych na temat opinii dziesiątek milionów ludzi, po prostu ankietując kilka tysięcy. To również jest niedokładne. Sondaż z doskonałym, bezstronnym doborem i prawdziwymi odpowiedziami ma matematycznie określony margines błędu , który zależy tylko od liczby ankietowanych osób.

Często jednak w ankiecie zgłaszany jest tylko jeden margines błędu. Gdy wyniki są przedstawiane dla podgrup populacji, stosuje się większy margines błędu, ale może to nie być jasne. Na przykład ankieta na 1000 osób może obejmować 100 osób z określonej grupy etnicznej lub ekonomicznej. Wyniki skupiające się na tej grupie będą znacznie mniej wiarygodne niż wyniki dla całej populacji. Jeśli margines błędu dla pełnej próby wynosił, powiedzmy, 4%, to margines błędu dla takiej podgrupy mógłby wynosić około 13%.

W badaniach populacyjnych istnieje również wiele innych problemów pomiarowych.

Wyżej wymienione problemy dotyczą wszystkich eksperymentów statystycznych, a nie tylko badań populacyjnych.

Fałszywa przyczynowość

Kiedy test statystyczny pokazuje korelację między A i B, zwykle istnieje sześć możliwości:

  1. A powoduje B.
  2. B powoduje A.
  3. A i B obydwa częściowo powodują się nawzajem.
  4. A i B są spowodowane przez trzeci czynnik, C.
  5. B jest spowodowane przez C, które jest skorelowane z A.
  6. Zaobserwowana korelacja wynikała wyłącznie z przypadku.

Szóstą możliwość można określić ilościowo za pomocą testów statystycznych, które mogą obliczyć prawdopodobieństwo, że zaobserwowana korelacja byłaby tak duża, jak tylko przez przypadek, jeśli w rzeczywistości nie ma związku między zmiennymi. Jednak nawet jeśli ta możliwość jest mało prawdopodobna, nadal istnieje pięć innych.

Jeśli liczba osób kupujących lody na plaży jest statystycznie powiązana z liczbą osób, które utonęły na plaży, to nikt nie twierdziłby, że lody powodują utonięcia, bo wiadomo, że tak nie jest. (W tym przypadku zarówno tonięcie, jak i kupowanie lodów są wyraźnie powiązane trzecim czynnikiem: liczbą osób na plaży).

Ten błąd można wykorzystać na przykład do udowodnienia, że ​​narażenie na substancję chemiczną powoduje raka. Zastąp „liczbę osób kupujących lody” „liczbą osób narażonych na działanie substancji chemicznej X”, a „liczba osób, które utonęły” na „liczbę osób, które zachorowały na raka”, a wiele osób ci uwierzy. W takiej sytuacji może wystąpić korelacja statystyczna, nawet jeśli nie ma rzeczywistego efektu. Na przykład, jeśli istnieje przekonanie, że miejsce chemiczne jest „niebezpieczne” (nawet jeśli w rzeczywistości nie jest), wartości nieruchomości na tym obszarze zmniejszą się, co zachęci więcej rodzin o niskich dochodach do przeniesienia się do tego obszaru. Jeśli rodziny o niskich dochodach są bardziej podatne na zachorowanie na raka niż rodziny o wysokich dochodach (na przykład ze względu na gorszą dietę lub mniejszy dostęp do opieki medycznej), wskaźniki zachorowania na raka będą rosły, nawet jeśli sama substancja chemiczna nie jest niebezpieczna. Uważa się , że tak właśnie było w przypadku niektórych wczesnych badań wykazujących związek między polami elektromagnetycznymi ( polami elektromagnetycznymi ) linii energetycznych a rakiem .

W dobrze zaprojektowanych badaniach efekt fałszywej przyczynowości można wyeliminować poprzez losowe przypisanie niektórych osób do „grupy terapeutycznej”, a niektórych osób do „grupy kontrolnej” leczenie. W powyższym przykładzie badacz może narazić jedną grupę ludzi na działanie substancji chemicznej X, a drugą pozostawić nienarażoną. Jeśli pierwsza grupa miała wyższy wskaźnik zachorowań na raka, badacz wie, że nie ma trzeciego czynnika, który miałby wpływ na to, czy dana osoba była narażona, ponieważ kontrolował, kto był narażony, czy nie, i losowo przypisywał osoby do grup narażonych i nienarażonych. Jednak w wielu aplikacjach przeprowadzanie eksperymentu w ten sposób jest albo zaporowo drogie, niewykonalne, nieetyczne, nielegalne, albo wręcz niemożliwe. Na przykład jest wysoce nieprawdopodobne, aby IRB zaakceptował eksperyment polegający na celowym narażeniu ludzi na niebezpieczną substancję w celu przetestowania jej toksyczności. Oczywiste implikacje etyczne tego typu eksperymentów ograniczają zdolność badaczy do empirycznego testowania przyczynowości.

Dowód hipotezy zerowej

W teście statystycznym hipoteza zerowa ( ) jest uważana za ważną, dopóki wystarczająca ilość danych nie wykaże, że jest błędna. Następnie zostaje odrzucona, a hipoteza alternatywna ( ) uznana za słuszną. Może się to zdarzyć przypadkowo, choć jest to prawdą, z określonym prawdopodobieństwem (poziom istotności). Można to porównać do procesu sądowego, w którym oskarżony jest uważany za niewinnego ( ) do czasu udowodnienia mu winy ( ) ponad wszelką wątpliwość ( ).

Ale jeśli dane nie dają nam wystarczających dowodów, aby to odrzucić , nie oznacza to automatycznie, że jest to poprawne. Jeśli na przykład producent tytoniu chce wykazać, że jego produkty są bezpieczne, może z łatwością przeprowadzić test na małej próbie palaczy w porównaniu z małą próbą osób niepalących. Jest mało prawdopodobne, że którykolwiek z nich zachoruje na raka płuc (a nawet jeśli tak, różnica między grupami musi być bardzo duża, aby odrzucić ). Dlatego jest prawdopodobne – nawet jeśli palenie jest niebezpieczne – że nasz test nie odrzuci . Jeśli zostanie zaakceptowane, nie oznacza to automatycznie, że palenie jest nieszkodliwe. Test ma niewystarczającą moc do odrzucenia , więc test jest bezużyteczny, a wartość „dowodu” jest również zerowa.

Można to – używając analogii sądowej powyżej – porównać z naprawdę winnym oskarżonym, który zostaje zwolniony tylko dlatego, że dowód nie wystarcza do wydania wyroku skazującego. Nie świadczy to o niewinności oskarżonego, a jedynie o tym, że nie ma wystarczających dowodów na wydanie wyroku skazującego.

„...hipoteza zerowa nigdy nie jest udowadniana ani ustalana, ale może zostać obalona w toku eksperymentów. Można powiedzieć, że każdy eksperyment istnieje tylko po to, aby dać faktom szansę obalenia hipotezy zerowej”. (Fisher in The Design of Experiments ) Istnieje wiele powodów do nieporozumień, w tym użycie podwójnej logiki i terminologii negatywnej wynikającej z połączenia „testów istotności” Fishera (gdzie hipoteza zerowa nigdy nie jest akceptowana) z „testowaniem hipotez” (gdzie pewna hipoteza jest zawsze akceptowana).

Mylenie istotności statystycznej z istotnością praktyczną

Istotność statystyczna jest miarą prawdopodobieństwa; praktyczne znaczenie jest miarą efektu. Wyleczenie łysienia jest statystycznie istotne, jeśli rzadka brzoskwinia zwykle pokrywa wcześniej nagą skórę głowy. Kuracja jest praktycznie znacząca, gdy czapka nie jest już potrzebna w chłodne dni, a fryzjer pyta, ile zdjąć czapkę. Łysy chcą lekarstwa, które jest istotne zarówno statystycznie, jak i praktycznie; Prawdopodobnie zadziała, a jeśli tak, to będzie miał duży włochaty efekt. Publikacje naukowe często wymagają jedynie istotności statystycznej. Doprowadziło to do skarg (od 50 lat), że testowanie istotności statystycznej jest niewłaściwym wykorzystaniem statystyk.

Pogłębianie danych

Pogłębianie danych to nadużycie eksploracji danych . Podczas pogłębiania danych badane są duże kompilacje danych w celu znalezienia korelacji, bez wstępnie zdefiniowanego wyboru hipotezy do przetestowania. Ponieważ wymagany przedział ufności do ustalenia związku między dwoma parametrami jest zwykle wybierany jako 95% (co oznacza, że ​​istnieje 95% szansy, że obserwowany związek nie jest spowodowany przypadkowym przypadkiem), istnieje zatem 5% szansa na znalezienie korelacja między dowolnymi dwoma zestawami całkowicie losowych zmiennych. Biorąc pod uwagę, że wysiłki związane z pogłębianiem danych zwykle badają duże zbiory danych z wieloma zmiennymi, a zatem nawet większą liczbą par zmiennych, prawie pewne jest znalezienie fałszywych, ale pozornie statystycznie istotnych wyników w każdym takim badaniu.

Należy zauważyć, że pogłębianie danych jest prawidłowym sposobem znalezienia możliwej hipotezy, ale hipoteza ta musi następnie zostać przetestowana z danymi, które nie zostały wykorzystane w pierwotnym pogłębianiu. Nadużycie pojawia się, gdy hipoteza ta jest przedstawiana jako fakt bez dalszego potwierdzania.

„Nie można legalnie przetestować hipotezy na tych samych danych, które jako pierwsze sugerowały tę hipotezę. Rozwiązanie jest jasne. Gdy już masz hipotezę, zaprojektuj badanie, aby wyszukać konkretnie efekt, o którym teraz myślisz. Jeśli wynik tego testu jest statystycznie istotne, w końcu masz prawdziwe dowody”.

Manipulacja danymi

Ta praktyka, nieformalnie nazywana „fałszowaniem danych”, obejmuje selektywne raportowanie (patrz także stronniczość publikacji ), a nawet zwykłe wymyślanie fałszywych danych.

Mnożą się przykłady selektywnego raportowania. Najprostsze i najczęstsze przykłady obejmują wybór grupy wyników, które są zgodne ze wzorcem zgodnym z preferowaną hipotezą , z pominięciem innych wyników lub „przebiegów danych”, które są sprzeczne z hipotezą.

Naukowcy na ogół kwestionują wiarygodność wyników badań, których inni badacze nie mogą odtworzyć. Jednak niektórzy naukowcy odmawiają publikowania swoich danych i metod.

Manipulacja danymi jest poważnym problemem/rozważaniem w najbardziej uczciwych analizach statystycznych. Wartości odstające, brakujące dane i nienormalność mogą niekorzystnie wpłynąć na wiarygodność analizy statystycznej. Przed rozpoczęciem analizy należy przestudiować dane i naprawić rzeczywiste problemy. „[I] na każdym wykresie punktowym będą pewne punkty mniej lub bardziej oderwane od głównej części chmury: te punkty należy odrzucić tylko z przyczyn”.

Inne błędy

Pseudoreplikacja to błąd techniczny związany z analizą wariancji . Złożoność ukrywa fakt, że analiza statystyczna jest podejmowana na pojedynczej próbie (N=1). W tym zdegenerowanym przypadku nie można obliczyć wariancji (dzielenie przez zero). (N=1) zawsze daje badaczowi najwyższą statystyczną korelację między intencją błędu a faktycznymi odkryciami.

Na paradoks hazardzisty zakłada, że zdarzenie, dla którego prawdopodobieństwo przyszłość można zmierzyć miał ten sam prawdopodobieństwo dzieje raz to już nastąpiło. Tak więc, jeśli ktoś rzucił już 9 monetami, a każda z nich wypadła resztkami, ludzie mają tendencję do zakładania, że ​​prawdopodobieństwo, że dziesiąty rzut również będzie resztą, wynosi 1023 do 1 (co miało miejsce przed rzuceniem pierwszej monety), podczas gdy w rzeczywistości szansa na dziesiątą główkę wynosi 50% (zakładając, że moneta jest bezstronna).

W błąd prokuratury doprowadziło, w Wielkiej Brytanii, aby Sally Clark jest niesłusznie oskarżony o zabicie jej dwóch synów. W sądzie błędnie zinterpretowano niskie statystyczne prawdopodobieństwo (1 na 73 miliony) śmierci dwojga dzieci kobiety z powodu zespołu nagłej śmierci niemowląt, podanego przez profesora Sir Roya Meadowa, jako sugerujące niskie prawdopodobieństwo jej niewinności. Nawet jeśli podane prawdopodobieństwo podwójnego SIDS, które później zostało zakwestionowane przez Królewskie Towarzystwo Statystyczne , było poprawne, należy rozważyć wszystkie możliwe wyjaśnienia przeciwko sobie, aby wyciągnąć wniosek, który najprawdopodobniej spowodował niewyjaśnioną śmierć dwojga dzieci. Dostępne dane sugerują, że kurs będzie na korzyść podwójnych SIDS porównaniu do podwójnego zabójstwa przez współczynnik dziewiątej”. Przekonanie o Sally Clark został ostatecznie obalony.

Ludyczny błędem . Prawdopodobieństwa są oparte na prostych modelach, które ignorują rzeczywiste (jeśli odległe) możliwości. Pokerzyści nie uważają, że przeciwnik może dobrać broń zamiast karty. Ubezpieczeni (i rządy) zakładają, że ubezpieczyciele pozostaną wypłacalni, ale patrz AIG i ryzyko systemowe .

Inne rodzaje nadużyć

Inne nadużycia obejmują porównywanie jabłek i pomarańczy , używanie niewłaściwej średniej, regresję w kierunku średniej oraz wyrażenie zbiorcze garbage in, garbage out . Niektóre statystyki są po prostu nieistotne dla danego problemu.

Kwartet Anscombe'a to wymyślony zbiór danych, który ilustruje wady prostych statystyk opisowych (i wartość wykreślania danych przed analizą numeryczną).

Zobacz też

Bibliografia

Uwagi

Źródła

Dalsza lektura