Obcięcia (statystyka) - Truncation (statistics)

W statystycznych , obcinania prowadzi do wartości, które są ograniczone powyżej lub poniżej, w wyniku czego ścięty próbki . Obcięcie jest podobna, ale różni się od koncepcji cenzurowania statystycznych . Skrócony próbka może być traktowane jako równoważne do bazowego próbki z wszystkich wartości poza granicami całkowicie pominięte, ze nawet nie liczyć tych pominięto utrzymywane. Z cenzurowania statystycznych, notatka zostanie nagrany dokumentowanie który związany (górny lub dolny) został przekroczony i wartość tej granicy. Ze ściętym pobierania próbek, żadna nie została nagrana.

Aplikacje

Zwykle wartości, które regulatory ubezpieczenia otrzymują są albo lewej obcięty prawym cenzurowane, albo jedno i drugie. Na przykład, jeżeli ubezpieczający podlegają granicznej polityka u , wtedy wszelkie kwoty straty, które są faktycznie powyżej u są zgłaszane do firmy ubezpieczeniowej jako dokładnie u bo u jest kwota, którą firma ubezpieczeniowa płaci. Ubezpieczyciel wie, że rzeczywista strata jest większa niż u ale nie wiem co to jest. Z drugiej strony, w lewo obcięcie występuje, gdy ubezpieczający podlegają odliczeniu. Jeżeli ubezpieczający podlegają odliczeniu d , dowolnej ilości strat, która jest mniejsza niż d nawet nie być zgłaszane do firmy ubezpieczeniowej. Jeżeli istnieje roszczenie na granicy polityki z U i odliczeniu od d , każda kwota straty, które jest większe niż u będą zgłaszane do firmy ubezpieczeniowej jako straty , ponieważ jest to kwota, którą firma ubezpieczeniowa musi zapłacić. Dlatego dane strata ubezpieczenie lewej obcięty, ponieważ firma ubezpieczeniowa nie wiem, czy istnieją wartości poniżej odliczeniu d gdyż ubezpieczający nie będzie złożyć wniosek. Utrata ubezpieczenia jest również tuż-cenzurowane jeśli strata jest większa niż u bo u jest najbardziej firma ubezpieczeniowa zapłaci. Tak więc, tylko wie, że reklamacja jest większa niż u , a nie dokładnej kwoty roszczenia.

rozkłady prawdopodobieństwa

Obcięcie można stosować do dowolnego rozkładu prawdopodobieństwa . Będzie to zazwyczaj prowadzi do nowego podziału, a nie jeden w obrębie tej samej rodziny. Tak więc, jeżeli losowo zmienna x jest F ( x ) jako funkcji rozkładu nowy zmienną losową Y , określone jako mające rozkład X obcinane do przedziału częściowo otwarte ( , b ] ma funkcję rozkładu

o Y w przedziale ( , b ], a wartość 0 lub 1 w inny sposób. W przypadku obcinanie były w zamkniętym przedziale [ , b ] dystrybuanta byłoby

o Y w przedziale [ , b ], a wartość 0 lub 1 w inny sposób.

Analiza danych

Analiza danych, gdzie obserwacje są traktowane jako pochodzące z obciętymi wersjami standardowe rozkładu mogą być wykonywane z wykorzystaniem maksymalnego prawdopodobieństwa , w których prawdopodobieństwo będzie pochodzący z rozkładu i gęstości rozkładu ściętego. Wiąże się to z uwzględnieniem współczynnika w funkcji gęstości modyfikowanego, która zależy od parametrów pierwotnego dystrybucji.

W praktyce, jeśli frakcja obcięty jest bardzo mały efekt obcięcia może być ignorowane przy analizie danych. Na przykład, powszechne jest stosowanie rozkładu normalnego do modelu danych, których wartości mogą być tylko pozytywne, ale dla których typowy zakres wartości jest z dala od zera. W takich przypadkach, skrócona lub ocenzurowana wersja rozkładu normalnego formalnie może być korzystne (choć nie byłoby alternatywy); byłoby bardzo niewielkie zmiany w wynikach bardziej skomplikowanej analizy. Jednak oprogramowanie jest łatwo dostępna dla estymacji maksymalnym prawdopodobieństwie nawet umiarkowanie skomplikowanych modeli, takich jak modele regresji , dla danych skróconych.

Zobacz też

Referencje

  1. ^ Dodge, Y. (2003) The Oxford Słownik terminów statystycznych . OUP. ISBN  0-19-920613-9
  2. ^ Wolynetz, MS (1979) największej wiarygodności w modelu liniowego z Zamkniętą i Censored normalnych danych . J.Roy.Statist.Soc (seria C) 28 (2), 195-206