Dane binarne - Binary data

Dane binarne to dane, których jednostka może przyjmować tylko dwa możliwe stany, tradycyjnie oznaczane jako 0 i 1 zgodnie z binarnym systemem liczbowym i algebrą Boole'a .

Dane binarne występują w wielu różnych dziedzinach technicznych i naukowych, gdzie mogą być nazywane różnymi nazwami, w tym bitem (cyfrą binarną) w informatyce , wartością logiczną w logice matematycznej i dziedzin pokrewnych oraz zmienną binarną w statystyce.

Podstawy matematyczne i kombinatoryczne

Dyskretna zmienna, która może mieć tylko jeden stan zerowy zawiera informacje , a 2 to kolejna liczba naturalna po 1. Dlatego nieco zmienna tylko z dwóch możliwych wartości, to standard podstawowy jednostka informacji .

Zbiór $n$ bitów może mieć $2 n$ stanów: zobacz liczbę binarną po szczegóły. Liczba stanów zbioru zmiennych dyskretnych zależy wykładniczo od liczby zmiennych, a tylko jako prawo potęgowe od liczby stanów każdej zmiennej. Dziesięć bitów ma więcej ( 1024 ) stanów niż trzy cyfry dziesiętne ( 1000 ). $10 k$ bitów jest więcej niż wystarczające do reprezentowania informacji ( liczby lub czegokolwiek innego), która wymaga $3 k$ cyfr dziesiętnych, więc informacje zawarte w zmiennych dyskretnych o stanach 3 , 4, 5, 6, 7, 8, 9, 10 … mogą zostać zastąpione przez przydzielenie dwóch, trzech lub czterech razy więcej bitów. Tak więc użycie jakiejkolwiek innej małej liczby niż 2 nie daje korzyści.

Diagram hassego : przedstawienie logicznego Algebra jako skierowany wykres

Co więcej, algebra Boole'a zapewnia wygodną strukturę matematyczną do zbierania bitów, z semantyką zbioru zmiennych zdaniowych . Operacje algebry Boole'a są znane jako „ operacje bitowe ” w informatyce. Funkcje logiczne są również dobrze zbadane teoretycznie i łatwe do implementacji za pomocą programów komputerowych lub tak zwanych bramek logicznych w elektronice cyfrowej . Przyczynia się to do używania bitów do reprezentowania różnych danych, nawet tych, które pierwotnie nie były binarne.

W statystykach

W statystykach , danych binarnych jest typ danych statystycznych składający skategoryzowanych danych , które mogą przyjmować dokładnie dwóch możliwych wartości, takich jak „A” i „B” lub „głowy” i „ogony”. Jako forma danych kategorycznych, dane binarne są danymi nominalnymi , co oznacza, że reprezentują jakościowo różne wartości, których nie można porównać liczbowo. Jednak dane binarne są często konwertowane na dane liczbowe , uznając jedną z dwóch wartości za „sukces” i reprezentując wyniki jako 1 lub 0, co odpowiada policzeniu liczby sukcesów w pojedynczej próbie: 1 (sukces) lub 0 ( niepowodzenie); patrz § Liczenie .

Często dane binarne są używane do reprezentowania jednej z dwóch przeciwstawnych koncepcyjnie wartości, np.:

wynik eksperymentu („sukces” lub „porażka”)
odpowiedź na pytanie tak-nie („tak” lub „nie”)
obecność lub brak jakiejś funkcji („jest obecny” lub „nie jest obecny”)
prawdziwość lub nieprawdziwość zdania („prawda” lub „fałsz”, „poprawna” lub „nieprawidłowa”)

Można go jednak również używać w przypadku danych, co do których zakłada się, że mają tylko dwie możliwe wartości, nawet jeśli nie są one koncepcyjnie przeciwstawne lub koncepcyjnie reprezentują wszystkie możliwe wartości w przestrzeni. Na przykład dane binarne są często używane do reprezentowania wyborów partyjnych wyborców w wyborach w Stanach Zjednoczonych , tj. Republikanów lub Demokratów . W tym przypadku nie ma nieodłącznego powodu, dla którego miałyby istnieć tylko dwie partie polityczne , aw rzeczywistości inne partie istnieją w USA, ale są one tak niewielkie, że na ogół są po prostu ignorowane. Modelowanie danych ciągłych (lub danych kategorycznych z więcej niż 2 kategorii) jako zmiennej binarnej do celów analizy nazywa się dychotomizacją (tworzeniem dychotomii ). Jak każda dyskretyzacja , wiąże się z błędem dyskretyzacji , ale celem jest nauczenie się czegoś wartościowego pomimo błędu: traktowanie tego jako nieistotnego dla danego celu, ale pamiętanie, że nie można założyć, że jest nieistotny w ogóle.

Zmienne binarne

Zmienna binarna jest zmienną losową typu binarnego, czyli z dwóch możliwych wartości. Niezależne i identycznie rozłożone (iid) zmienne binarne mają rozkład Bernoulliego , ale ogólnie dane binarne nie muszą pochodzić ze zmiennych iid. Całkowita liczba zmiennych binarnych iid (odpowiednik sum zmiennych binarnych iid zakodowanych jako 1 lub 0) jest zgodna z rozkładem dwumianowym , ale gdy zmienne binarne nie są iid, rozkład nie musi być dwumianowy.

Rachunkowość

Jak kategorycznego danych, danych binarnych i może zostać przekształcony w wektorze z danych dotyczących ilości , pisząc jeden współrzędnych każdej możliwej wartości, a liczenie 1 do wartości, która występuje, i 0 do wartości, która nie występuje. Na przykład, jeśli wartości to A i B, to zestaw danych A, A, B może być reprezentowany w liczbach jako (1, 0), (1, 0), (0, 1). Po przekonwertowaniu na liczebności dane binarne można grupować i dodawać liczebności. Na przykład, jeśli zestaw A, A, B jest zgrupowany, suma zliczeń wynosi (2, 1): 2 A i 1 B (z 3 prób).

Ponieważ istnieją tylko dwie możliwe wartości, można to uprościć do pojedynczej liczby (wartości skalarnej), uznając jedną wartość za „sukces”, a drugą za „porażkę”, kodując wartość sukcesu jako 1 i niepowodzenia jako 0. Na przykład, jeśli wartość A zostanie uznana za „sukces” (a zatem B za „niepowodzenie”), zestaw danych A, A, B będzie reprezentowany jako 1, 1, 0. Po zgrupowaniu wartości są dodawane, podczas gdy liczba prób jest zwykle śledzona w sposób niejawny. Na przykład A, A, B zostaną zgrupowane jako 1 + 1 + 0 = 2 sukcesy (z }} prób). Idąc w drugą stronę, zlicz dane za pomocą danych binarnych, przy czym dwie klasy to 0 (niepowodzenie) lub 1 (sukces). $n=3$ $n=1$

Liczby zmiennych binarnych iid mają rozkład dwumianowy , z całkowitą liczbą prób (punkty w danych zgrupowanych). ${\ Displaystyle n}$

Regresja

Analiza regresji na przewidywanych wynikach, które są zmiennymi binarnymi, jest znana jako regresja binarna ; gdy dane binarne są konwertowane na dane liczbowe i modelowane jako zmienne iid (więc mają rozkład dwumianowy), można użyć regresji dwumianowej . Najwięcej wspólnych metod regresji dla danych binarnych są regresji logistycznej , regresji probit lub pokrewne rodzaje binarnych wybór modeli.

Podobnie liczebności zmiennych kategorialnych iid z więcej niż dwiema kategoriami można modelować za pomocą regresji wielomianowej . Liczby danych binarnych innych niż iid można modelować za pomocą bardziej skomplikowanych rozkładów, takich jak rozkład beta-dwumianowy ( rozkład złożony ). Alternatywnie, zależność można modelować bez konieczności modelowania wprost rozkładu zmiennej wyjściowej przy użyciu technik z uogólnionych modeli liniowych (GLM), takich jak quasi-prawdopodobieństwa i model quasibinomial ; zobacz Nadmierne rozproszenie § Dwumianowy .

W informatyce

Binarny obraz z QR Code , reprezentujący 1 bit na piksel, w przeciwieństwie do typowego 24-bitowym prawdziwego koloru obrazu.

We współczesnych komputerach dane binarne odnoszą się do wszelkich danych reprezentowanych w formie binarnej, a nie interpretowanych na wyższym poziomie lub konwertowanych na inną formę. Na najniższym poziomie bity są przechowywane w urządzeniu bistabilnym , takim jak flip-flop . Podczas gdy większość danych binarnych ma znaczenie symboliczne (z wyjątkiem nie obchodzi ), nie wszystkie dane binarne są numeryczne. Niektóre dane binarne odpowiadają instrukcjom komputerowym , takim jak dane w rejestrach procesora dekodowane przez jednostkę sterującą w cyklu pobierania-dekodowania-wykonania . Komputery rzadko modyfikują poszczególne bity ze względu na wydajność. Zamiast tego dane są wyrównywane w grupach o stałej liczbie bitów, zwykle 1 bajt (8 bitów). Stąd „dane binarne” w komputerach to w rzeczywistości sekwencje bajtów. Na wyższym poziomie dostęp do danych odbywa się w grupach po 1 słowa (4 bajty) dla systemów 32-bitowych i 2 słowa dla systemów 64-bitowych .

W informatyce stosowanej i w dziedzinie technologii informatycznych termin dane binarne jest często w przeciwieństwie do danych tekstowych , odnoszący się do wszelkiego rodzaju danych, których nie można zinterpretować jako tekst. Rozróżnienie „tekst” i „binarny” może czasami odnosić się do semantycznej zawartości pliku (np. dokument pisany vs. obraz cyfrowy ). Jednak często odnosi się konkretnie do tego, czy poszczególne bajty pliku można interpretować jako tekst (patrz kodowanie znaków ) lub nie można tak zinterpretować. Gdy zamierzone jest to ostatnie znaczenie, czasami używane są bardziej szczegółowe terminy format binarny i format tekstowy(ual) . Dane semantycznie tekstowe mogą być reprezentowane w formacie binarnym (np. po skompresowaniu lub w pewnych formatach, które mieszają różne rodzaje kodów formatujących, jak w formacie DOC używanym przez Microsoft Word ); przeciwnie, dane obrazu są czasami reprezentowane w formacie tekstowym (np. format obrazu X PixMap używany w X Window System ).

Languages

In other projects