Współczynnik zmienności - Coefficient of variation

W teorii prawdopodobieństwa i statystycznych , na współczynnik zmienności ( CV ), znany również jako względne odchylenie standardowe ( RSD ) jest znormalizowana miara dyspersji o rozkładzie prawdopodobieństwa lub podziału częstotliwości . Często wyrażana jest w procentach i definiowana jako stosunek odchylenia standardowego do średniej (lub jej wartości bezwzględnej , ). CV lub RSD są szeroko stosowane w chemii analitycznej do wyrażania precyzji i powtarzalności testu . Jest również powszechnie stosowany w dziedzinach takich jak inżynieria lub fizyka podczas przeprowadzania badań zapewniania jakości i pomiaru R&R ANOVA . Ponadto CV jest wykorzystywane przez ekonomistów i inwestorów w modele ekonomiczne .

Definicja

Współczynnik zmienności (CV) jest zdefiniowany jako stosunek odchylenia standardowego do średniej , pokazuje stopień zmienności w stosunku do średniej populacji. Współczynnik zmienności powinien być obliczany tylko dla danych mierzonych na skali ilorazowej , to znaczy skal, które mają sensowne zero i stąd pozwalają na względne porównanie dwóch pomiarów (tj. podzielenie jednego pomiaru przez drugi). Współczynnik zmienności może nie mieć żadnego znaczenia dla danych na skali interwałowej . Na przykład większość skal temperatury (np. Celsjusza, Fahrenheita itp.) to skale interwałowe z arbitralnymi zerami, więc obliczony współczynnik zmienności będzie różny w zależności od użytej skali. Z drugiej strony temperatura Kelvina ma znaczące zero, całkowity brak energii cieplnej, a zatem jest skalą proporcji. Mówiąc prostym językiem, sensowne jest stwierdzenie, że 20 kelwinów jest dwa razy bardziej gorące niż 10 kelwinów, ale tylko w tej skali z prawdziwym zerem absolutnym. Chociaż odchylenie standardowe (SD) można zmierzyć w stopniach Kelvina, Celsjusza lub Fahrenheita, obliczona wartość ma zastosowanie tylko do tej skali. Do obliczenia prawidłowego współczynnika zmienności można użyć tylko skali Kelvina.

Pomiary, które mają rozkład logarytmiczny wykazują stacjonarne CV; natomiast SD zmienia się w zależności od oczekiwanej wartości pomiarów.

Bardziej solidną możliwością jest kwartylowy współczynnik dyspersji , czyli połowa zakresu międzykwartylowego podzielona przez średnią kwartyli ( półzawias ), .

W większości przypadków CV jest obliczane dla pojedynczej zmiennej niezależnej (np. pojedynczego produktu fabrycznego) z licznymi, powtarzanymi pomiarami zmiennej zależnej (np. błąd w procesie produkcyjnym). Jednak dane, które są liniowe lub nawet logarytmicznie nieliniowe i zawierają ciągły zakres zmiennej niezależnej z rzadkimi pomiarami w każdej wartości (np. wykres rozrzutu), mogą nadawać się do obliczenia pojedynczego CV przy użyciu podejścia oszacowania maksymalnego prawdopodobieństwa .

Przykłady

Zbiór danych [100, 100, 100] ma stałe wartości. Jego odchylenie standardowe wynosi 0, a średnia wynosi 100, co daje współczynnik zmienności jako

0/100 = 0

Zbiór danych [90, 100, 110] charakteryzuje się większą zmiennością. Jego odchylenie standardowe próbki wynosi 10, a jego średnia wynosi 100, co daje współczynnik zmienności jako

10/100 = 0,1

Zbiór danych [1, 5, 6, 8, 10, 40, 65, 88] ma jeszcze większą zmienność. Jego odchylenie standardowe wynosi 32,9, a średnia 27,9, co daje współczynnik zmienności

32,9 / 27,9 = 1,18

Przykłady nadużyć

Porównywanie współczynników zmienności między parametrami przy użyciu jednostek względnych może skutkować różnicami, które mogą nie być rzeczywiste. Jeśli porównamy ten sam zestaw temperatur w stopniach Celsjusza i Fahrenheita (obie jednostki względne, gdzie skala Kelvina i Rankine'a są powiązanymi wartościami bezwzględnymi):

Celsjusza: [0, 10, 20, 30, 40]

Fahrenheita: [32, 50, 68, 86, 104]

Do przykładowych odchylenia standardowe są 15.81 i 28,46, odpowiednio. CV pierwszego zestawu to 15,81/20 = 79%. Dla drugiego zestawu (które są tymi samymi temperaturami) jest to 28,46/68 = 42%.

Jeśli na przykład zestawy danych są odczytami temperatury z dwóch różnych czujników (czujnika Celsjusza i czujnika Fahrenheita) i chcesz wiedzieć, który czujnik jest lepszy, wybierając ten z najmniejszą wariancją, to zostaniesz wprowadzony w błąd, jeśli użyjesz CV. Problem polega na tym, że podzieliłeś przez wartość względną, a nie bezwzględną.

Porównanie tego samego zestawu danych, teraz w jednostkach bezwzględnych:

Kelwin: [273.15, 283.15, 293.15, 303.15, 313.15]

Rankine: [491,67, 509,67, 527,67, 545,67, 563,67]

Te przykładowe odchylenia standardowe są nadal 15,81 i 28,46, odpowiednio, ponieważ odchylenie standardowe nie jest objęty stałą offsetowego. Jednak współczynniki zmienności są teraz równe 5,39%.

Mówiąc matematycznie, współczynnik zmienności nie jest całkowicie liniowy. Oznacza to, że dla zmiennej losowej współczynnik zmienności jest równy współczynnikowi zmienności tylko kiedy . W powyższym przykładzie stopnie Celsjusza można przekonwertować na stopnie Fahrenheita tylko poprzez liniową transformację formy za pomocą , podczas gdy Kelviny można przekonwertować na stopnie Rankines poprzez transformację formy .

Oszacowanie

Gdy dostępna jest tylko próbka danych z populacji, CV populacji można oszacować za pomocą stosunku odchylenia standardowego próbki do średniej próbki :

Ale ten estymator, zastosowany do małej lub średniej wielkości próby, jest zwykle zbyt niski: jest to estymator obciążony . W przypadku danych o rozkładzie normalnym bezstronny estymator dla próbki o rozmiarze n to:

Log-normalne dane

W wielu aplikacjach można założyć, że dane mają rozkład logarytmiczny (co świadczy o obecności skośności w próbkowanych danych). W takich przypadkach dokładniejsze oszacowanie, wyprowadzone z właściwości rozkładu logarytmiczno-normalnego , definiuje się jako:

gdzie jest odchylenie standardowe próbki danych po transformacji logarytmu naturalnego . (W przypadku, gdy pomiary są rejestrowane przy użyciu dowolnej innej podstawy logarytmicznej b, ich odchylenie standardowe jest konwertowane na podstawę e przy użyciu , a wzór na pozostaje taki sam.) Ta ocena jest czasami określana jako „geometryczna CV” (GCV) w celu odróżnienia go od prostego oszacowania powyżej. Jednak „geometryczny współczynnik zmienności” został również zdefiniowany przez Kirkwooda jako:

Termin ten miał być analogiczny do współczynnika zmienności w celu opisania zmienności multiplikatywnej w danych logarytmicznych, ale ta definicja GCV nie ma podstaw teoretycznych jako oszacowanie samej siebie.

Z wielu praktycznych celów (takich jak określanie wielkości próbki i obliczanie przedziałów ufności ) jest to najbardziej przydatne w kontekście danych o logarytmicznym rozkładzie normalnym. W razie potrzeby można to wyprowadzić z oszacowania lub GCV, odwracając odpowiedni wzór.

Porównanie do odchylenia standardowego

Zalety

Współczynnik zmienności jest przydatny, ponieważ odchylenie standardowe danych należy zawsze rozumieć w kontekście średniej danych. Natomiast rzeczywista wartość CV jest niezależna od jednostki, w której dokonano pomiaru, więc jest to liczba bezwymiarowa . Do porównania między zbiorami danych o różnych jednostkach lub bardzo różnych średnich należy użyć współczynnika zmienności zamiast odchylenia standardowego.

Niedogodności

  • Gdy średnia wartość jest bliska zeru, współczynnik zmienności zbliża się do nieskończoności i dlatego jest wrażliwy na małe zmiany średniej. Dzieje się tak często, gdy wartości nie pochodzą ze skali ilorazowej.
  • W przeciwieństwie do odchylenia standardowego, nie można go użyć bezpośrednio do skonstruowania przedziałów ufności dla średniej.
  • CV nie są idealnym wskaźnikiem pewności pomiaru, gdy liczba powtórzeń różni się w różnych próbkach, ponieważ CV jest niezmienne w stosunku do liczby powtórzeń, podczas gdy pewność średniej poprawia się wraz ze wzrostem liczby powtórzeń. W takim przypadku sugeruje się, że błąd standardowy w procentach jest lepszy.

Aplikacje

Współczynnik zmienności jest również powszechne w stosowanych pól prawdopodobieństwa takich jak teoria odnowy , teoria kolejek i teorii niezawodności . W tych polach rozkład wykładniczy jest często ważniejszy niż rozkład normalny . Odchylenie standardowe rozkładu wykładniczego jest równe jego średniej, więc jego współczynnik zmienności jest równy 1. Rozkłady z CV < 1 (takie jak rozkład Erlanga ) są uważane za niskozmienne, podczas gdy te z CV > 1 (takie jak rozkład hiper-wykładniczy ) są uważane za wysokiej wariancji. Niektóre formuły w tych dziedzinach są wyrażane przy użyciu kwadratu współczynnika zmienności , często w skrócie SCV. W modelowaniu odmianą CV jest CV (RMSD). Zasadniczo CV (RMSD) zastępuje termin odchylenia standardowego odchyleniem średniokwadratowym (RMSD) . Podczas gdy wiele naturalnych procesów rzeczywiście wykazuje korelację między wartością średnią a wielkością zmienności wokół niej, dokładne urządzenia czujnikowe muszą być zaprojektowane w taki sposób, aby współczynnik zmienności był bliski zeru, tj. dawał stały błąd bezwzględny w stosunku do ich wartości. zakres roboczy.

W naukach aktuarialnych CV jest znane jako ryzyko jednostkowe .

W przemysłowym przetwarzaniu ciał stałych CV jest szczególnie ważne do pomiaru stopnia jednorodności mieszanki proszkowej. Porównanie obliczonego CV ze specyfikacją pozwoli określić, czy osiągnięto wystarczający stopień wymieszania.

Pomiary laboratoryjne CV wewnątrz-testowych i między-testowych

Pomiary CV są często używane jako kontrole jakości w ilościowych testach laboratoryjnych . Chociaż można założyć, że wartości CV w obrębie testu i pomiędzy testami są obliczane po prostu przez uśrednienie wartości CV dla wartości CV dla wielu próbek w ramach jednego testu lub przez uśrednienie wielu oszacowań CV między testami, sugeruje się, że praktyki te są nieprawidłowe i że wymagany jest bardziej złożony proces obliczeniowy. Zauważono również, że wartości CV nie są idealnym wskaźnikiem pewności pomiaru, gdy liczba powtórzeń różni się w różnych próbkach – w tym przypadku sugeruje się, że błąd standardowy w procentach jest wyższy. Jeśli pomiary nie mają naturalnego punktu zerowego, CV nie jest prawidłowym pomiarem i zalecane są alternatywne pomiary, takie jak współczynnik korelacji wewnątrzklasowej .

Jako miara nierówności ekonomicznych

Współczynnik zmienności spełnia wymagania dla miary nierówności ekonomicznej . Jeżeli x (z wpisami x i ) jest listą wartości wskaźnika ekonomicznego (np. bogactwa), gdzie x i jest majątkiem podmiotu i , to spełnione są następujące warunki:

  • Anonimowość – c v jest niezależna od kolejności na liście x . Wynika to z faktu, że wariancja i średnia są niezależne od uporządkowania x .
  • Niezmienność skali: c v ( x ) = c vx ) gdzie α jest liczbą rzeczywistą.
  • Niezależność populacji – Jeśli { x , x } jest listą x dołączoną do siebie, to c v ({ x , x }) = c v ( x ). Wynika to z faktu, że zarówno wariancja, jak i środek przestrzegają tej zasady.
  • Zasada transferu Pigou-Daltona: gdy bogactwo jest przekazywane od bogatszego agenta i do biedniejszego agenta j (tj. x i  >  x j ) bez zmiany ich rangi, wtedy c v maleje i vice versa.

c v przyjmuje jego minimalną wartość zero dla całkowitej równości (wszystkie x i są równe). Jego najbardziej zauważalną wadą jest to, że nie jest ograniczony od góry, więc nie można go znormalizować tak, aby mieścił się w ustalonym zakresie (np. jak współczynnik Giniego, który jest ograniczony do wartości od 0 do 1). Jest to jednak bardziej matematycznie wykonalne niż współczynnik Giniego.

Jako miara standaryzacji zabytków archeologicznych

Archeolodzy często używają wartości CV do porównywania stopnia standaryzacji starożytnych artefaktów. Zróżnicowanie w CV zostało zinterpretowane w celu wskazania różnych kontekstów przekazu kulturowego dla przyjęcia nowych technologii. Współczynniki zmienności zostały również wykorzystane do zbadania standaryzacji ceramiki związanej ze zmianami w organizacji społecznej. Archeolodzy stosują również kilka metod porównywania wartości CV, na przykład zmodyfikowany test współczynnika wiarygodności (MSLR) dla równości CV.

Dystrybucja

Zakładając, że ujemne i małe dodatnie wartości średniej z próby występują ze znikomą częstością, rozkład prawdopodobieństwa współczynnika zmienności dla próby o wielkości iid normalnych zmiennych losowych wykazali Hendricks i Robey jako

gdzie symbol wskazuje, że suma dotyczy tylko parzystych wartości , tj. jeśli jest nieparzysta, suma jest powyżej parzystych wartości , a jeśli jest parzysta, to suma tylko nad nieparzystymi wartościami .

Jest to przydatne na przykład przy konstruowaniu testów hipotez lub przedziałów ufności . Wnioskowanie statystyczne dotyczące współczynnika zmienności w danych o rozkładzie normalnym często opiera się na przybliżeniu chi-kwadrat McKaya dla współczynnika zmienności

Alternatywny

Według Liu (2012), Lehmann (1986). „wyprowadził również rozkład próbki CV, aby podać dokładną metodę konstrukcji przedziału ufności dla CV;” opiera się na niecentralnym rozkładzie t .

Podobne proporcje

Momenty standaryzowane są podobnymi stosunkami, gdzie jest k- tym momentem o średniej, które również są bezwymiarowe i niezmienne w skali. Stosunek wariancji do średniej , , jest innym podobnym stosunkiem, ale nie jest bezwymiarowy, a zatem nie jest niezmienny w skali. Zobacz Normalizacja (statystyki) dla dalszych wskaźników.

W przetwarzaniu sygnału , zwłaszcza przetwarzaniu obrazu , odwrotność stosunku (lub jego kwadrat) jest ogólnie określana jako stosunek sygnału do szumu, a w szczególności jako stosunek sygnału do szumu (obrazowanie) .

Inne powiązane wskaźniki obejmują:

Zobacz też

Bibliografia

Zewnętrzne linki

  • cvequality : pakiet R do testowania znaczących różnic między wieloma współczynnikami zmienności