Efekt sufitu (statystyki) - Ceiling effect (statistics)

Efekt sufitowy ” to jeden z rodzajów efektu tłumienia skali; drugi efekt tłumienia skali to „ efekt podłogi ”. Efekt pułapu obserwuje się, gdy zmienna niezależna nie ma już wpływu na zmienną zależną lub poziom, powyżej którego wariancja zmiennej niezależnej nie jest już mierzalna. Konkretne zastosowanie różni się nieco w rozróżnieniu między dwoma obszarami zastosowania tego terminu: farmakologicznym lub statystycznym. Przykładem zastosowania w pierwszym obszarze, efektu pułapowego w leczeniu, jest łagodzenie bólu przez niektóre rodzaje leków przeciwbólowych , które nie mają dalszego wpływu na ból powyżej określonego poziomu dawkowania (patrz również: efekt pułapowy w farmakologii ). Przykładem zastosowania w drugim obszarze, efektu pułapu w zbieraniu danych, jest badanie, które grupuje wszystkich respondentów w kategorie dochodowe, nie rozróżniając dochodów respondentów powyżej najwyższego poziomu mierzonego w instrumencie badania. Maksymalny poziom dochodu, który można zgłosić, tworzy „pułap”, który skutkuje niedokładnością pomiaru, ponieważ zakres zmiennej zależnej nie obejmuje prawdziwych wartości powyżej tego punktu. Efekt pułapu może wystąpić za każdym razem, gdy miara obejmuje określony zakres, w którym rozkład normalny przewiduje wielokrotne wyniki na poziomie lub powyżej maksymalnej wartości zmiennej zależnej.

Zbieranie danych

Efekt pułapu w zbieraniu danych, gdy wariancja zmiennej zależnej nie jest mierzona lub szacowana powyżej pewnego poziomu, jest często spotykanym problemem praktycznym w zbieraniu danych w wielu dyscyplinach naukowych. Taki efekt jest często wynikiem ograniczeń nałożonych na instrumenty gromadzenia danych. Gdy podczas gromadzenia danych występuje efekt pułapu, na wyższym poziomie pojawia się zbiór wyników, zgłaszanych przez instrument.

Ograniczenia błędu odpowiedzi

Stronniczość odpowiedzi występuje powszechnie w badaniach dotyczących kwestii, które mogą mieć podstawy etyczne lub są ogólnie postrzegane jako mające negatywne konotacje. Uczestnicy mogą nie zareagować odpowiednio na środek w oparciu o to, czy uważają, że dokładna odpowiedź jest postrzegana negatywnie. Ankieta populacyjna na temat zmiennych stylu życia wpływających na wyniki zdrowotne może zawierać pytanie o nawyki palenia. Aby uchronić się przed możliwością, że respondent, który jest nałogowym palaczem, może odmówić udzielenia dokładnej odpowiedzi na temat palenia, najwyższy poziom palenia pytany w narzędziu ankiety może wynosić „dwie paczki dziennie lub więcej”. Skutkuje to efektem sufitu polegającym na tym, że osoby, które palą trzy lub więcej paczek dziennie, nie różnią się od osób, które palą dokładnie dwie paczki. Podobnie ankieta populacyjna dotycząca dochodów może mieć najwyższy poziom odpowiedzi „100 000 USD rocznie lub więcej”, zamiast uwzględniać wyższe przedziały dochodów, ponieważ respondenci mogą w ogóle odmówić odpowiedzi, jeśli pytania ankiety zbyt dokładnie określają ich dochody. To również powoduje efekt pułapu, nie odróżniając osób, które mają dochód 500 000 USD rocznie lub więcej, od tych, których dochód wynosi dokładnie 100 000 USD rocznie. Rola błędu odpowiedzi w wywoływaniu efektów pułapu jest wyraźnie widoczna na przykładzie respondentów ankiety, którzy wierzą, że pożądana odpowiedź jest maksymalną wartością raportowaną, co skutkuje grupowaniem punktów danych. Próba zapobiegania stronniczości odpowiedzi, w przypadku badania nawyków palenia, prowadzi do efektu pułapu poprzez podstawowy projekt środka.

Ograniczenia zakresu instrumentów

Zakres danych, które można zebrać za pomocą konkretnego przyrządu, może być ograniczony przez nieodłączne ograniczenia w konstrukcji przyrządu. Często projekt konkretnego instrumentu wymaga kompromisu między efektami sufitowymi a efektami podłogowymi . Jeżeli zmienna zależna mierzona na skali nominalnej nie ma kategorii odpowiedzi, które odpowiednio pokrywają górny koniec rozkładu próby, odpowiedź o wartości maksymalnej będzie musiała obejmować wszystkie wartości powyżej końca skali. Spowoduje to efekt pułapu ze względu na grupowanie respondentów w pojedynczą kategorię maksymalną, co uniemożliwia dokładną reprezentację odchylenia poza ten punkt. Ten problem występuje w wielu typach ankiet, które wykorzystują wstępnie określone odpowiedzi w stylu nawiasów. Gdy wiele osób ma wyniki dla zmiennej na górnej granicy tego, co raportuje instrument, analiza danych dostarcza niedokładnych informacji, ponieważ pewne rzeczywiste różnice w danych nie znajdują odzwierciedlenia w wynikach uzyskanych z tego instrumentu.

Mówi się, że efekt sufitu występuje, gdy wysoki odsetek badanych w badaniu ma maksymalne wyniki w obserwowanej zmiennej. Uniemożliwia to dyskryminację przedmiotów z górnej półki skali. Na przykład praca egzaminacyjna może sprawić, że, powiedzmy, 50% studentów zdobędzie 100%. Chociaż taki artykuł może służyć jako przydatny test progowy, nie pozwala na ranking najlepszych wykonawców. Z tego powodu badanie wyników testów pod kątem możliwego efektu sufitu i odwrotnego efektu podłogi jest często wbudowane w walidację instrumentów, takich jak te używane do pomiaru jakości życia.

W takim przypadku efekt sufitu uniemożliwia przyrządowi odnotowanie pomiaru lub oszacowania powyżej pewnej granicy niezwiązanej z obserwowanym zjawiskiem, ale raczej związanej z konstrukcją przyrządu. Prymitywnym przykładem może być mierzenie wysokości drzew linijką o długości zaledwie 20 metrów, jeśli na podstawie innych dowodów widać, że istnieją drzewa znacznie wyższe niż 20 metrów. Użycie 20-metrowej linijki jako jedynego sposobu mierzenia drzew nakładałoby pułap na gromadzenie danych o wysokości drzew. Zarówno efekty sufitowe, jak i podłogowe ograniczają zakres danych raportowanych przez instrument, zmniejszając zmienność gromadzonych danych. Ograniczona zmienność danych gromadzonych na jednej zmiennej może zmniejszyć siłę statystyk dotyczących korelacji między tą zmienną a inną zmienną.

Testy wstępne na studia

W różnych krajach, które stosują testy wstępne jako główny element lub ważny element przy ustalaniu kwalifikacji do studiów wyższych lub uniwersyteckich, gromadzone dane odnoszą się do różnych poziomów wyników kandydatów na egzaminach. Gdy test wstępny do college'u ma maksymalny możliwy wynik, który można osiągnąć bez doskonałej wydajności w zakresie treści przedmiotu testu, skala punktacji testu ma efekt pułapu. Co więcej, jeśli zawartość elementu testu jest łatwa dla wielu zdających, test może nie odzwierciedlać rzeczywistych różnic w wydajności (co można by wykryć za pomocą innych przyrządów) wśród zdających z górnej granicy zakresu wydajności testu. Obydwa zjawiska ilustrują testy matematyczne stosowane przy przyjmowaniu na studia w Stanach Zjednoczonych i podobne testy stosowane przy przyjmowaniu na uniwersytety w Wielkiej Brytanii.

Psychologia kognitywistyczna

W psychologii poznawczej procesy umysłowe, takie jak rozwiązywanie problemów i zapamiętywanie, są badane eksperymentalnie przy użyciu definicji operacyjnych, które pozwalają na jasne pomiary. Powszechną miarą zainteresowania jest czas reakcji na dany bodziec. W badaniu tej zmiennej pułap może być najniższą możliwą liczbą (najmniejszą możliwą liczbą milisekund na odpowiedź), a nie najwyższą wartością, jak to zwykle ma miejsce w interpretacji „sufitu”. W badaniach czasu odpowiedzi może się wydawać, że w pomiarach wystąpił pułap z powodu pozornego skupienia się wokół pewnego minimalnego czasu (takiego jak najszybszy czas zarejestrowany w eksperymencie). Jednak to grupowanie może w rzeczywistości reprezentować naturalną fizjologiczną granicę czasu odpowiedzi, a nie artefakt czułości stopera (co oczywiście byłoby efektem sufitu). Dalsze badania statystyczne i osąd naukowy mogą rozstrzygnąć, czy obserwacje są spowodowane pułapem, czy też są prawdą.

Ważność ograniczeń instrumentu

Testy IQ

Niektórzy autorzy zajmujący się edukacją uzdolnionych piszą o efektach sufitowych w testach IQ, które mają negatywny wpływ na jednostki. Ci autorzy czasami twierdzą, że takie pułapy powodują systematyczne niedoszacowanie IQ osób uzdolnionych intelektualnie . W tym przypadku należy dokładnie rozróżnić dwa różne sposoby używania terminu „sufit” w pismach o testach IQ.

Wyniki IQ mogą się do pewnego stopnia różnić dla tej samej osoby na różnych testach IQ (wiek 12-13 lat). (Dane tabeli wyników IQ i pseudonimy uczniów zaadaptowane z opisu badania normującego KABC-II cytowanego w Kaufman 2009.)
Uczeń KABC-II WISC-III WJ-III
Asher 90 95 111
Brianna 125 110 105
Colin 100 93 101
Danica 116 127 118
Elfa 93 105 93
Fritz 106 105 105
Georgi 95 100 90
Zabijaka 112 113 103
Imelda 104 96 97
Jose 101 99 86
Keoku 81 78 75
Lew 116 124 102

Pułapy podtestów IQ są narzucane przez zakresy coraz trudniejszych pozycji. Test IQ z szerokim zakresem coraz trudniejszych pytań będzie miał wyższy pułap niż test z wąskim zakresem i kilkoma trudnymi przedmiotami. Efekty sufitowe powodują, po pierwsze, niezdolność do rozróżnienia między osobami uzdolnionymi (czy średnio uzdolnionych, głęboko uzdolnionych itp.), a po drugie, skutkują błędną klasyfikacją niektórych osób uzdolnionych jako powyżej przeciętnej, ale nie uzdolnionych.

Załóżmy, że test IQ ma trzy podtesty: słownictwo, arytmetyka i analogie obrazkowe. Wyniki każdego z podtestów są znormalizowane (patrz punktacja standardowa ), a następnie sumowane, aby uzyskać złożony wynik IQ. Załóżmy teraz, że Joe uzyskuje maksymalny wynik 20 w teście arytmetycznym, ale dostaje 10 z 20 w testach słownika i analogii. Czy można uczciwie powiedzieć, że całkowity wynik Joego wynoszący 20+10+10 lub 40 reprezentuje jego całkowitą zdolność? Odpowiedź brzmi nie, ponieważ Joe osiągnął maksymalny możliwy wynik 20 na teście arytmetycznym. Gdyby test arytmetyczny zawierał dodatkowe, trudniejsze elementy, Joe mógłby zdobyć 30 punktów w tym podteście, dając „prawdziwy” wynik 30+10+10 lub 50. Porównaj wyniki Joego z wynikami Jima, który uzyskał 15+15+ 15 = 45, bez wbiegania w żadne sufity podtestów. W pierwotnym sformułowaniu testu Jim radził sobie lepiej niż Joe (45 w porównaniu z 40), podczas gdy to Joe faktycznie powinien był uzyskać wyższy „całkowity” wynik inteligencji niż Jim (50 punktów dla Joego w porównaniu z 45 dla Jima) przy użyciu przeformułowany test, który zawiera trudniejsze elementy arytmetyczne.

Pisma na temat edukacji uzdolnionych podają dwa powody, by przypuszczać, że niektóre wyniki IQ są zaniżone w stosunku do inteligencji zdającego:

  1. mają tendencję do wykonywania wszystkich podtestów lepiej niż osoby mniej utalentowane;
  2. w niektórych podtestach radzą sobie znacznie lepiej niż w innych, zwiększając zmienność między podtestami i prawdopodobieństwo napotkania pułapu.

Analiza statystyczna

Wpływ sufitu na pomiar zagraża prawdzie naukowej i zrozumieniu poprzez szereg powiązanych aberracji statystycznych.

Po pierwsze, pułapy osłabiają zdolność badaczy do określenia centralnej tendencji danych. Gdy efekt pułapu odnosi się do danych zebranych na zmiennej zależnej, nierozpoznanie tego efektu pułapu może „prowadzić do błędnego wniosku, że zmienna niezależna nie ma wpływu”. Z przyczyn matematycznych wykraczających poza zakres tego artykułu (patrz analiza wariancji ), ta zahamowana wariancja zmniejsza czułość eksperymentów naukowych zaprojektowanych w celu ustalenia, czy średnia jednej grupy różni się znacząco od średniej innej grupy. Na przykład, leczenie podane jednej grupie może wywołać efekt, ale efekt może umknąć wykryciu, ponieważ średnia grupy leczonej nie będzie wystarczająco różniła się od średniej grupy nieleczonej.

Tak więc „efekty sufitu są zespołem spraw, a ich unikanie kwestią uważnej oceny szeregu kwestii”.

Zapobieganie

Ponieważ efekty sufitowe uniemożliwiają dokładną interpretację danych, ważne jest, aby spróbować zapobiec występowaniu efektów lub wykorzystać obecność efektów do dostosowania instrumentu i zastosowanych procedur. Naukowcy mogą próbować zapobiegać występowaniu efektów sufitowych za pomocą wielu metod. Pierwszym z nich jest wybór wcześniej zwalidowanej miary poprzez przegląd wcześniejszych badań. Jeżeli nie istnieją zatwierdzone środki, można przeprowadzić testy pilotażowe przy użyciu proponowanych metod. Testowanie pilotażowe lub przeprowadzanie eksperymentu pilotażowego obejmuje próbę przyrządów i procedur na małą skalę przed faktycznym eksperymentem, co pozwala na stwierdzenie, że należy wprowadzić poprawki w celu uzyskania najbardziej wydajnego i dokładnego zbierania danych. Jeśli badacze korzystają z projektu, który nie został wcześniej zweryfikowany, do oceny występowania efektów sufitu można wykorzystać kombinację badań, obejmujących pierwotnie zaproponowany i inny, poparty wcześniejszą literaturą. Jeżeli jakiekolwiek badania, zwłaszcza badanie pilotażowe, wykażą efekt sufitu, należy poczynić wysiłki w celu dostosowania instrumentu tak, aby ten efekt mógł zostać złagodzony i można było przeprowadzić badania informacyjne.

Zobacz też

Uwagi

Bibliografia

Dalsza lektura