Niezawodność między oceniającymi — Inter-rater reliability

W statystyce, między oceniającymi wiarygodność (zwany także przez różne podobnych nazwach, takich jak umowy inter rater , inter rater zgodności , niezawodności inter-obserwatora , i tak dalej), to stopień zgodności wśród niezależnych obserwatorów, którzy stopa, kod, lub ocenić to samo zjawisko.

Natomiast rzetelność wewnątrz oceniającego jest wynikiem spójności ocen wystawionych przez tę samą osobę w wielu przypadkach. Na przykład, oceniający nie powinien pozwalać, aby elementy takie jak zmęczenie wpływały na ich ocenę pod koniec lub pozwolić, aby dobry papier wpływał na ocenę następnego papieru. Oceniający nie powinien porównywać ze sobą artykułów, ale powinien oceniać każdy artykuł na podstawie standardu.

Wiarygodność między oceniającymi i między oceniającymi są aspektami trafności testu . Ich oceny są przydatne w udoskonalaniu narzędzi dawanych ludzkim sędziom, na przykład poprzez określenie, czy dana skala jest odpowiednia do pomiaru określonej zmiennej. Jeśli różni oceniający nie zgadzają się, oznacza to, że albo waga jest uszkodzona, albo oceniający muszą zostać przeszkoleni.

Istnieje szereg statystyk, które można wykorzystać do określenia rzetelności między oceniającymi. Różne statystyki są odpowiednie dla różnych typów pomiarów. Niektóre opcje są wspólne prawdopodobieństwo porozumienia kappa Cohena , pi Scotta i związanym kappa Fleiss' , inter-rater korelacji, współczynnik korelacji zgodność , wewnątrz klasy korelacja i alfa Krippendorff użytkownika .

Pojęcie

Istnieje kilka operacyjnych definicji „rzetelności między oceniającymi”, odzwierciedlających różne punkty widzenia na temat tego, czym jest wiarygodna zgodność między oceniającymi. Istnieją trzy operacyjne definicje umowy:

Rzetelni oceniający zgadzają się z „oficjalną” oceną występu.
Rzetelni oceniający są ze sobą zgodni co do dokładnych ocen, które mają zostać przyznane.
Rzetelni oceniający są zgodni co do tego, która wydajność jest lepsza, a która gorsza.

Łączą się one z dwiema operacyjnymi definicjami zachowania:

Niezawodni oceniający to automaty, zachowujące się jak „maszyny oceniające”. Ta kategoria obejmuje komputerową ocenę esejów. To zachowanie można ocenić za pomocą teorii uogólniania .
Rzetelni oceniający zachowują się jak niezależni świadkowie. Demonstrują swoją niezależność, nieznacznie się nie zgadzając. To zachowanie można ocenić za pomocą modelu Rascha .

Statystyka

Wspólne prawdopodobieństwo porozumienia

Najprostszą i najmniej solidną miarą jest wspólne prawdopodobieństwo porozumienia. Szacuje się go jako procent czasu, w którym oceniający zgadzają się w systemie ocen nominalnych lub kategorycznych. Nie bierze pod uwagę faktu, że porozumienie może nastąpić wyłącznie na zasadzie przypadku. Pojawia się pytanie, czy istnieje potrzeba „poprawy” w przypadku umowy losowej; niektórzy sugerują, że w każdym razie każda taka korekta powinna opierać się na wyraźnym modelu tego, jak przypadek i błąd wpływają na decyzje oceniających.

Gdy liczba używanych kategorii jest niewielka (np. 2 lub 3), prawdopodobieństwo, że 2 oceniających zgodzi się przez czysty przypadek, dramatycznie wzrasta. Dzieje się tak, ponieważ obaj oceniający muszą ograniczyć się do ograniczonej liczby dostępnych opcji, co wpływa na ogólny wskaźnik zgodności, a niekoniecznie na ich skłonność do „wewnętrznej” zgody (zgoda jest uważana za „wewnętrzną”, jeśli nie jest wynikiem przypadku).

Dlatego łączne prawdopodobieństwo porozumienia pozostanie wysokie nawet w przypadku braku „wewnętrznej” zgody wśród oceniających. Oczekuje się, że użyteczny współczynnik rzetelności między oceniającymi (a) będzie bliski 0, gdy nie ma „wewnętrznej” zgodności i (b) będzie wzrastał wraz z poprawą „wewnętrznej” zgodności. Większość współczynników zgodności skorygowanych o przypadek osiąga pierwszy cel. Jednak drugi cel nie jest osiągany przez wiele znanych środków skorygowanych o przypadek.

Statystyki Kappa

Cztery zestawy zaleceń dotyczących interpretacji poziomu zgodności oceniających

Kappa to sposób mierzenia zgodności lub wiarygodności, korygowania tego, jak często oceny mogą się zgadzać przypadkowo. Kappa Cohena, która działa dla dwóch oceniających i kappa Fleissa, adaptacja działająca dla dowolnej ustalonej liczby oceniających, poprawiają wspólne prawdopodobieństwo, ponieważ uwzględniają wielkość zgodności, której można się spodziewać przypadkowo. Oryginalne wersje miały ten sam problem, co wspólne prawdopodobieństwo , ponieważ traktują dane jako nominalne i zakładają, że oceny nie mają naturalnej kolejności; jeśli dane faktycznie mają rangę (porządkowy poziom pomiaru), to informacja ta nie jest w pełni uwzględniana w pomiarach.

Późniejsze rozszerzenia tego podejścia obejmowały wersje, które mogły obsługiwać „częściowy kredyt” i skale porządkowe. Rozszerzenia te zbiegają się z rodziną korelacji wewnątrzklasowych (ICC), więc istnieje koncepcyjnie powiązany sposób szacowania wiarygodności dla każdego poziomu pomiaru od nominalnego (kappa) do porządkowego (porządkowy kappa lub ICC — założenia rozciągające) do przedziału (ICC). , lub porządkowa kappa — traktując skalę interwałową jako porządkową) i współczynnik (ICC). Istnieją również warianty, w których można sprawdzać zgodność oceniających w zestawie pozycji (np. czy dwóch ankieterów zgadza się co do wyników depresji dla wszystkich pozycji w tym samym częściowo ustrukturyzowanym wywiadzie dla jednego przypadku?), a także oceniających x przypadków (np. jak dobrze dwóch lub więcej oceniających zgadza się co do tego, czy 30 przypadków ma diagnozę depresji, tak/nie – zmienna nominalna).

Kappa jest podobny do współczynnika korelacji pod tym względem, że nie może przekroczyć +1,0 ani poniżej -1,0. Ponieważ jest używany jako miara zgodności, w większości sytuacji można oczekiwać tylko wartości dodatnich; wartości ujemne wskazywałyby na systematyczny sprzeciw. Kappa może osiągnąć bardzo wysokie wartości tylko wtedy, gdy obie umowy są dobre, a wskaźnik warunku docelowego jest zbliżony do 50% (ponieważ uwzględnia stawkę bazową w kalkulacji prawdopodobieństw łącznych). Kilka autorytetów zaproponowało „praktyczne zasady” interpretacji poziomu zgodności, z których wiele zgadza się w istocie, mimo że słowa nie są identyczne.

Współczynniki korelacji

Albo Pearson „s , τ Kendalla lub Spearmana ” s może być używany do pomiaru parami korelację pomiędzy oceniających stosując skalę, który jest uporządkowany. Pearson zakłada, że skala ocen jest ciągła; Statystyki Kendalla i Spearmana zakładają tylko, że jest to liczba porządkowa. Jeżeli obserwuje się więcej niż dwóch oceniających, średni poziom zgodności dla grupy można obliczyć jako średnią wartości , τ lub z każdej możliwej pary oceniających. ${\ Displaystyle r}$ ${\ Displaystyle \ rho}$ ${\ Displaystyle r}$ ${\ Displaystyle \ rho}$

Współczynnik korelacji wewnątrzklasowej

Innym sposobem wykonywania testów niezawodności jest użycie współczynnika korelacji wewnątrzklasowej (ICC). Istnieje kilka rodzajów tego, a jeden jest zdefiniowany jako „proporcja wariancji obserwacji spowodowana zmiennością międzyobiektową w prawdziwych wynikach”. Zakres ICC może wynosić od 0,0 do 1,0 (wczesna definicja ICC może wynosić od -1 do +1). ICC będzie wysoki, gdy istnieje niewielka różnica między punktami przyznanymi każdej pozycji przez oceniających, np. jeśli wszyscy oceniający przyznają takie same lub podobne wyniki każdej z pozycji. ICC jest ulepszeniem w stosunku do Pearsona i Spearmana , ponieważ uwzględnia różnice w ocenach poszczególnych segmentów wraz z korelacją między oceniającymi. ${\ Displaystyle r}$ ${\ Displaystyle \ rho}$

Granice umowy

Działka Blanda-Altmana

Innym podejściem do zgodności (przydatnym, gdy jest tylko dwóch oceniających, a skala jest ciągła) jest obliczenie różnic między każdą parą obserwacji dwóch oceniających. Średnia tych różnic jest określana jako błąd systematyczny, a przedział odniesienia (średnia ± 1,96 × odchylenie standardowe ) jest określany jako granica zgodności . Te granice porozumienia zapewnić wgląd ile losowa zmienność może być wpływanie oceny.

Jeśli oceniający zwykle zgadzają się, różnice między obserwacjami oceniających będą bliskie zeru. Jeżeli jeden oceniającymi jest zazwyczaj większa lub mniejsza niż druga poprzez konsekwentne kwotę, nastawienie jest różny od zera. Jeśli oceniający zwykle się nie zgadzają, ale bez spójnego wzorca, w którym jedna ocena jest wyższa od drugiej, średnia będzie bliska zeru. Granice ufności (zwykle 95%) można obliczyć zarówno dla stronniczości, jak i dla każdego z limitów zgodności.

Istnieje kilka formuł, za pomocą których można obliczyć granice porozumienia. Prosta formuła, która została podana w poprzednim akapicie i sprawdza się dobrze w przypadku próby większej niż 60, to

{\bar {x}}\pm 1,96s

W przypadku mniejszych próbek innym powszechnym uproszczeniem jest

{\bar {x}}\pm 2s

Jednak najdokładniejsza formuła (która ma zastosowanie do wszystkich wielkości próbek) to

{\ Displaystyle {\ bar {x}} \ pm t_ {0,05, n-1} s {\ sqrt {1 + {\ Frac {1} {n}}}}}

Bland i Altman rozwinęli tę ideę, przedstawiając na wykresie różnicę każdego punktu, średnią różnicę i granice zgodności w pionie ze średnią dwóch ocen w poziomie. Powstały wykres Blanda–Altmana pokazuje nie tylko ogólny stopień zgodności, ale także, czy umowa jest powiązana z podstawową wartością przedmiotu. Na przykład, dwóch oceniających może ściśle zgadzać się w szacowaniu wielkości małych przedmiotów, ale nie zgadzać się co do większych przedmiotów.

Porównując dwie metody pomiaru, interesujące jest nie tylko oszacowanie zarówno błędu systematycznego, jak i granic zgodności między dwiema metodami (zgodność między ocenami), ale także ocena tych cech dla każdej metody w sobie. Równie dobrze może być tak, że zgodność między dwiema metodami jest słaba po prostu dlatego, że jedna z metod ma szerokie granice zgodności, podczas gdy druga jest wąska. W tym przypadku metoda o wąskich granicach zgodności byłaby lepsza ze statystycznego punktu widzenia, podczas gdy względy praktyczne lub inne mogą zmienić tę ocenę. To, co stanowi wąskie lub szerokie granice zgody lub duże lub małe nastawienie, jest w każdym przypadku kwestią praktycznej oceny.

Alfa . Krippendorffa

Alfa Krippendorffa to wszechstronna statystyka, która ocenia porozumienie osiągnięte wśród obserwatorów, którzy kategoryzują, oceniają lub mierzą dany zestaw obiektów pod względem wartości zmiennej. Uogólnia kilka wyspecjalizowanych współczynników zgodności, akceptując dowolną liczbę obserwatorów, mających zastosowanie do nominalnych, porządkowych, przedziałowych i ilorazowych poziomów pomiaru, będąc w stanie obsłużyć brakujące dane i skorygować dla małych rozmiarów próbek.

Alfa pojawiła się w analizie treści, w której jednostki tekstowe są kategoryzowane przez przeszkolonych koderów i są wykorzystywane w doradztwie i badaniach ankietowych, w których eksperci kodują dane z wywiadu otwartego na terminy możliwe do analizy, w psychometrii , w której poszczególne atrybuty są testowane wieloma metodami, w badaniach obserwacyjnych , w których nieustrukturyzowane wydarzenia są rejestrowane do dalszej analizy oraz w językoznawstwie komputerowym, gdzie teksty są opisywane pod kątem różnych jakości składniowych i semantycznych.

Niezgoda

W przypadku każdego zadania, w którym przydatnych jest wielu oceniających, oczekuje się, że oceniający nie zgodzą się co do obserwowanego celu. Natomiast sytuacje wymagające jednoznacznego pomiaru, takie jak proste zadania liczenia (np. liczba potencjalnych klientów wchodzących do sklepu), często nie wymagają więcej niż jednej osoby wykonującej pomiar.

Pomiary obejmujące niejednoznaczność cech będących przedmiotem zainteresowania w celu oceny są generalnie poprawiane przez wielu przeszkolonych oceniających. Takie zadania pomiarowe często wiążą się z subiektywną oceną jakości. Przykłady obejmują ocenę zachowania lekarza przy łóżku pacjenta, ocenę wiarygodności świadka przez ławę przysięgłych oraz umiejętności prezentacji mówcy.

Zmienność między oceniającymi w procedurach pomiarowych i zmienność w interpretacji wyników pomiarów to dwa przykłady źródeł wariancji błędu w pomiarach ratingowych. Jasno określone wytyczne dotyczące renderowania ocen są niezbędne dla wiarygodności w niejednoznacznych lub trudnych scenariuszach pomiarowych.

Bez wytycznych dotyczących punktacji na oceny w coraz większym stopniu wpływa błąd eksperymentatora , to znaczy tendencja wartości ocen do dryfowania w kierunku tego, czego oczekuje osoba oceniająca. Podczas procesów obejmujących powtarzane pomiary, korektę dryftu oceniającego można rozwiązać poprzez okresowe przeszkolenie, aby upewnić się, że oceniający rozumieją wytyczne i cele pomiarowe.

Zobacz też

Bibliografia

Dalsza lektura

Gwet, Kilem L. (2014) Handbook of Inter-Rater Reliability, wydanie czwarte , (Gaithersburg: Advanced Analytics, LLC) ISBN 978-0970806284
Gwet, KL (2008). „ Obliczanie niezawodności między ocenami i jej wariancji w obecności wysokiej zgodności ”. British Journal of Mathematical and Statistical Psychology, 61, 29-48
Johnson R., Penny J. i Gordon B. (2009). Ocena wydajności: opracowywanie, ocenianie i weryfikowanie zadań wydajnościowych. Nowy Jork: Publikacje Guilford. ISBN 978-1-59385-988-6
Shoukri, MM (2010) Miary porozumienia między obserwatorami i niezawodności (wydanie drugie) . Boca Raton, FL: Chapman & Hall / CRC Press, ISBN 978-1-4398-1080-4

Languages

In other projects