Losowość statystyczna - Statistical randomness

Mówi się, że sekwencja liczbowa jest statystycznie losowa, gdy nie zawiera rozpoznawalnych wzorców ani prawidłowości; sekwencje, takie jak wynik idealnego rzutu kostką lub cyfry π, wykazują statystyczną losowość.

Losowość statystyczna niekoniecznie oznacza „prawdziwą” losowość , tj. obiektywną nieprzewidywalność . Do wielu zastosowań, takich jak statystyka, wystarcza pseudolosowość , stąd nazwa statystyczna losowość.

Losowość globalna i losowość lokalna są różne. Większość filozoficznych koncepcji losowości ma charakter globalny — ponieważ opierają się na założeniu, że „na dłuższą metę” sekwencja wygląda naprawdę losowo, nawet jeśli pewne podciągi nie wyglądają na losowe. Na przykład w „prawdziwie” losowym ciągu liczb o wystarczającej długości prawdopodobnie będą długie ciągi składające się wyłącznie z powtarzających się liczb, chociaż ogólnie rzecz biorąc, ciąg ten może być losowy. Losowość lokalna odnosi się do idei, że mogą istnieć minimalne długości sekwencji, w których aproksymowane są rozkłady losowe. Długie ciągi tych samych liczb, nawet te generowane przez „prawdziwie” losowe procesy, zmniejszają „lokalną losowość” próbki (może być ona losowa tylko lokalnie dla ciągów liczących 10 000 liczb; branie ciągów mniejszych niż 1000 może nie wydawać się losowe na przykład).

Sekwencja wykazująca wzór nie jest zatem uznana za statystycznie losową. Zgodnie z zasadami teorii Ramseya wystarczająco duże obiekty muszą koniecznie zawierać daną podstrukturę („całkowite nieuporządkowanie jest niemożliwe”).

Ustawodawstwo dotyczące hazardu nakłada na automaty do gier pewne standardy statystycznej losowości .

Testy

Pierwsze testy liczb losowych zostały opublikowane przez MG Kendalla i Bernarda Babingtona Smitha w Journal of the Royal Statistical Society w 1938 roku. Zostały one zbudowane na narzędziach statystycznych, takich jak test chi-kwadrat Pearsona, który został opracowany w celu rozróżnienia, czy zjawiska eksperymentalne odpowiadają ich teoretycznym prawdopodobieństwa. Pearson pierwotnie opracował swój test, pokazując, że wiele eksperymentów z kośćmi przeprowadzonych przez WFR Weldon nie wykazywało „losowego” zachowania.

Pierwotne cztery testy Kendalla i Smitha były testami hipotez , które przyjmowały jako swoją hipotezę zerową ideę, że każda liczba w danej losowej sekwencji ma równe szanse wystąpienia i że różne inne wzorce w danych również powinny być równomiernie rozłożone.

  • Test częstotliwości był bardzo prosty: sprawdzenie, czy liczba zer, jedynek, zer i trójek jest w przybliżeniu taka sama.
  • Test seryjny zrobił to samo, ale dla sekwencji dwóch cyfr na raz (00, 01, 02 itd.), porównując ich obserwowane częstości z ich hipotetycznymi przewidywaniami, czy były one równomiernie rozłożone.
  • Test pokera , testowany dla pewnych sekwencji pięciu liczb na raz (AAAAA, AAAAB, AAABB, itp.) w oparciu o rozdania w grze pokerowej .
  • Test przerwy , sprawdzał odległości między zerami (00 oznaczałoby odległość 0,030 oznaczałoby odległość 1, 02250 oznaczałoby odległość 3 itd.).

Jeśli dana sekwencja była w stanie przejść wszystkie te testy w określonym stopniu istotności (na ogół 5%), to oceniano ją jako, mówiąc słowami, „lokalnie losową”. Kendall i Smith odróżnili „losowość lokalną” od „prawdziwej losowości” w tym sensie, że wiele sekwencji wygenerowanych za pomocą prawdziwie losowych metod może nie wyświetlać „losowości lokalnej” w określonym stopniu — bardzo duże sekwencje mogą zawierać wiele wierszy jednej cyfry. Może to być „losowe” w skali całego ciągu, ale w mniejszym bloku nie byłoby „losowe” (nie przeszłoby ich testów) i byłoby bezużyteczne w wielu zastosowaniach statystycznych.

W miarę jak zestawy liczb losowych stawały się coraz bardziej powszechne, stosowano coraz więcej testów o coraz większym zaawansowaniu. Niektóre współczesne testy wykreślają losowe cyfry jako punkty na trójwymiarowej płaszczyźnie, którą można następnie obracać w poszukiwaniu ukrytych wzorów. W 1995 roku statystyk George Marsaglia stworzył zestaw testów znanych jako testy twardości , które dystrybuuje na płycie CD-ROM zawierającej 5 miliardów liczb pseudolosowych . W 2015 r. Yongge Wang rozprowadził pakiet oprogramowania Java do statystycznego testowania losowości na podstawie odległości.

Generatory liczb pseudolosowych wymagają testów jako wyłącznych weryfikacji ich „losowości”, ponieważ zdecydowanie nieone wytwarzane przez „naprawdę losowe” procesy, ale raczej przez deterministyczne algorytmy. W historii generowania liczb losowych wiele źródeł liczb uważanych za „losowe” podczas testowania okazało się później bardzo nielosowe, gdy zostały poddane pewnym rodzajom testów. Pojęcie liczb quasi-losowych zostało opracowane w celu obejścia niektórych z tych problemów, chociaż generatory liczb pseudolosowych są nadal szeroko stosowane w wielu aplikacjach (nawet tych, o których wiadomo, że są skrajnie „nielosowe”), ponieważ są „wystarczająco dobre” dla większości Aplikacje.

Inne testy:

  • Test Monobit traktuje każdy bit wyjściowy generatora liczb losowych jako test rzutu monetą i określa, czy obserwowana liczba orłów i reszek jest zbliżona do oczekiwanej częstotliwości 50%. Liczba orzełków w śladzie rzutu monetą tworzy rozkład dwumianowy .
  • Test serii testów dla liczby bitów przechodzenia pomiędzy bitami 0 i 1 bitów porównanie zaobserwowanych częstotliwości o oczekiwanej częstotliwości losowej sekwencji bitów.
  • Entropia informacyjna
  • Test autokorelacji
  • Test Kołmogorowa–Smirnowa
  • Test losowości oparty na statystyce odległości. Yongge Wang wykazał, że standardy testowania NIST SP800-22 nie są wystarczające do wykrycia pewnych słabości generatorów losowości i zaproponował test losowości oparty na statystyce odległości.
  • Estymacja gęstości widmowej - wykonanie transformacji Fouriera na „losowym” sygnale przekształca go w sumę funkcji okresowych w celu wykrycia nielosowych powtarzających się trendów
  • Uniwersalny test statystyczny Maurera
  • Te testy Zagorzali

Zobacz też

Bibliografia

Linki zewnętrzne