Ważność testu - Test validity

Trafność testu to stopień, w jakim test (taki jak test chemiczny , fizyczny lub scholastyczny ) dokładnie mierzy to, co powinien mierzyć. W dziedzinie testów psychologicznych i testów edukacyjnych „trafność odnosi się do stopnia, w jakim dowody i teoria wspierają interpretację wyników testów wynikającą z proponowanych zastosowań testów”. Chociaż modele klasyczne podzielony na różne pojęcia „poprawnych wartoĹ” (takich jak zawartość ważności , ważność kryterium i ważności konstruktu ), obecnie dominuje pogląd, że ważność jest pojedynczy jednolity konstrukt.

Trafność jest ogólnie uważana za najważniejszą kwestię w testach psychologicznych i edukacyjnych, ponieważ dotyczy znaczenia nadawanego wynikom testów. Chociaż wiele podręczników przedstawia trafność jako konstrukcję statyczną, różne modele trafności ewoluowały od czasu pierwszych opublikowanych zaleceń dotyczących konstruowania testów psychologicznych i edukacyjnych. Modele te można podzielić na dwie podstawowe grupy: modele klasyczne, które obejmują kilka typów trafności, oraz modele nowoczesne, które przedstawiają trafność jako jedną konstrukcję. Współczesne modele reorganizują klasyczne „trafności” na „aspekty” trafności lub „typy” dowodów potwierdzających ważność

Trafność testu może być sama w sobie testowana / walidowana za pomocą testów wiarygodności między oceniającymi , rzetelności wewnątrz oceniających , powtarzalności (wiarygodność testu-powtórnego testu) i innych cech, zwykle poprzez wielokrotne przebiegi testu, którego wyniki są porównywane. Analiza statystyczna pomaga określić, czy różnice między różnymi wynikami są wystarczająco duże, aby stanowić problem, czy też są akceptowalnie małe.

Tło historyczne

Chociaż psychologowie i pedagodzy byli świadomi kilku aspektów trafności przed II wojną światową, ich metody ustalania trafności były zwykle ograniczone do korelacji wyników testów z jakimś znanym kryterium. Pod kierownictwem Lee Cronbacha , w Zaleceniach technicznych z 1954 r . Dotyczących testów psychologicznych i technik diagnostycznych podjęto próbę wyjaśnienia i poszerzenia zakresu trafności, dzieląc ją na cztery części: (a) trafność równoległa , (b) trafność predykcyjna , (c) trafność treści oraz (d) poprawność konstrukcji . Późniejsza publikacja Cronbacha i Meehla zgrupowała trafność predykcyjną i współbieżną w „zorientowanie na kryteria”, które ostatecznie stało się trafnością kryterialną .

W ciągu następnych czterech dekad wielu teoretyków, w tym sam Cronbach, wyraziło niezadowolenie z tego modelu słuszności „trzy w jednym”. Ich argumenty osiągnęły punkt kulminacyjny w artykule Samuela Messicka z 1995 roku, który opisał ważność jako pojedynczy konstrukt, złożony z sześciu „aspektów”. Jego zdaniem różne wnioski wyciągane z wyników testów mogą wymagać różnych rodzajów dowodów, ale nie różnych zasadności.

Standardy testów edukacyjnych i psychologicznych z 1999 r. W dużej mierze skodyfikowały model Messicka. Opisują pięć typów dowodów potwierdzających trafność, które obejmują każdy z aspektów Messicka, i nie wspominają o zawartości, kryteriach i trafności konstrukcji klasycznych modeli.

Proces walidacji

Zgodnie ze standardami z 1999 r. Walidacja jest procesem gromadzenia dowodów w celu zapewnienia „solidnych podstaw naukowych” do interpretacji wyników zgodnie z propozycjami autora testu i / lub użytkownika testu. Walidacja rozpoczyna się zatem od struktury, która definiuje zakres i aspekty (w przypadku skal wielowymiarowych) proponowanej interpretacji. Ramy zawierają również racjonalne uzasadnienie łączące interpretację z danym testem.

Badacze słuszności następnie wymieniają szereg twierdzeń, które muszą zostać spełnione, aby interpretacja była ważna. Lub odwrotnie, mogą sporządzić listę kwestii, które mogą zagrozić ważności interpretacji. W każdym przypadku badacze gromadzą dowody - czy to oryginalne badania empiryczne, metaanaliza lub przegląd istniejącej literatury, czy też logiczna analiza zagadnień - w celu poparcia lub zakwestionowania propozycji interpretacji (lub zagrożeń dla ważności interpretacji) . Nacisk kładzie się na jakość, a nie na ilość dowodów.

Pojedyncza interpretacja dowolnego wyniku testu może wymagać, aby kilka twierdzeń było prawdziwe (lub może zostać zakwestionowane przez dowolne ze zbioru zagrożeń dla jego ważności). Mocne dowody na poparcie jednego twierdzenia nie zmniejszają wymogu poparcia innych twierdzeń.

Dowody na poparcie (lub zakwestionowanie) ważności interpretacji można podzielić na jedną z pięciu kategorii:

  1. Dowody oparte na treści testu
  2. Dowody oparte na procesach reagowania
  3. Dowody oparte na strukturze wewnętrznej
  4. Dowody oparte na relacjach do innych zmiennych
  5. Dowody oparte na konsekwencjach testów

Techniki gromadzenia każdego rodzaju dowodów powinny być stosowane tylko wtedy, gdy dostarczają informacji, które potwierdzają lub kwestionują twierdzenia wymagane dla danej interpretacji.

Każdy dowód jest ostatecznie włączany do argumentu dotyczącego ważności. Argument może wymagać rewizji testu, jego protokołu administracyjnego lub teoretycznych konstruktów leżących u podstaw interpretacji. Jeśli test i / lub interpretacje wyników testu zostaną w jakikolwiek sposób zmienione, nowy proces walidacji musi zebrać dowody na poparcie nowej wersji.

Zobacz też

Bibliografia

  1. ^ a b c d American Educational Research Association, American Psychological Association i National Council on Measurement in Education. (1999) Standardy testów edukacyjnych i psychologicznych . Waszyngton, DC: American Educational Research Association.
  2. ^ Guion RM (1980). O trynitarnych doktrynach ważności. Psychologia zawodowa, 11 , 385–398.
  3. ^ a b c d Messick, S. (1995). Trafność oceny psychologicznej: Walidacja wniosków z odpowiedzi i wyników osób jako naukowe badanie znaczenia punktacji. American Psychologist, 50 , 741–749.
  4. ^ Popham, WJ (2008). Wszystko o ocenie / Niezrozumiany Graal. Przywództwo edukacyjne, 66 (1), 82-83.
  5. ^ Zobacz doskonały tekst: Nitko, JJ, Brookhart, SM (2004). Ocena edukacyjna uczniów . Upper Saddle River, NJ: Merrill-Prentice Hall.
  6. ^ a b Amerykańskie Towarzystwo Psychologiczne, Amerykańskie Stowarzyszenie Badań Edukacyjnych i Krajowa Rada Pomiarów w Edukacji. (1954). Zalecenia techniczne dotyczące testów psychologicznych i technik diagnostycznych . Waszyngton: Stowarzyszenie.
  7. ^ Angoff, WH (1988). Trafność: ewoluująca koncepcja. W H. Wainer i H. Braun (red.), Test Validity (str. 19–32). Hillsdale, NJ: Lawrence Erlbaum.
  8. ^ Cronbach, LJ i Meehl, PE (1955). Konstruuj trafność w testach psychologicznych. Biuletyn psychologiczny, 52 , 281-302.
  9. ^ Cronbach, LJ (1969). Walidacja środków edukacyjnych. Materiały z konferencji zaproszeniowej z 1969 r. Poświęconej problemom testowania. Princeton , NJ: Educational Testing Service, 35-52.
  10. ^ Loevinger, J. (1957). Testy obiektywne jako narzędzia teorii psychologicznej. Raporty psychologiczne, 3 , 634–694.
  11. ^ Tenopyr ML (1977). Zamieszanie treści i konstrukcji. Personnel Psychology, 30 , 47–54.
  12. ^ Guion RM (1977). Ważność treści - źródło mojego niezadowolenia. Applied Psychological Measurement, 1 , 1-10.