Błąd algorytmiczny - Algorithmic bias

Schemat blokowy przedstawiający decyzje podjęte przez silnik rekomendacji , około 2001 r.

Błąd algorytmiczny opisuje systematyczne i powtarzalne błędy w systemie komputerowym, które powodują niesprawiedliwe wyniki, takie jak uprzywilejowanie jednej arbitralnej grupy użytkowników nad innymi. Stronniczość może powstać z powodu wielu czynników, w tym między innymi projektu algorytmu lub niezamierzonego lub nieprzewidzianego użycia lub decyzji dotyczących sposobu kodowania, gromadzenia, wybierania lub wykorzystywania danych do uczenia algorytmu. Stronniczość algorytmiczna występuje na różnych platformach, w tym między innymi w wynikach wyszukiwarek i platformach mediów społecznościowych, i może mieć wpływ od nieumyślnego naruszenia prywatności po wzmacnianie uprzedzeń społecznych związanych z rasą, płcią, seksualnością i pochodzeniem etnicznym. Badanie błędu algorytmicznego dotyczy głównie algorytmów, które odzwierciedlają „systematyczną i niesprawiedliwą” dyskryminację. Ten błąd został dopiero niedawno rozwiązany w ramach prawnych, takich jak ogólne rozporządzenie Unii Europejskiej o ochronie danych z 2018 r . i ustawa o sztucznej inteligencji z 2021 r . .

W miarę jak algorytmy poszerzają swoją zdolność do organizowania społeczeństwa, polityki, instytucji i zachowań, socjologowie zaczęli się zastanawiać, w jaki sposób nieoczekiwane wyniki i manipulacja danymi mogą wpływać na świat fizyczny. Ponieważ algorytmy są często uważane za neutralne i bezstronne, mogą niedokładnie przedstawiać większy autorytet niż ludzkie doświadczenie, a w niektórych przypadkach poleganie na algorytmach może zastąpić ludzką odpowiedzialność za ich wyniki. Stronniczość może wejść do systemów algorytmicznych w wyniku wcześniej istniejących oczekiwań kulturowych, społecznych lub instytucjonalnych; ze względu na ograniczenia techniczne ich konstrukcji; lub przez użycie w nieoczekiwanych kontekstach lub przez odbiorców, którzy nie są uwzględnieni w pierwotnym projekcie oprogramowania.

Błędy algorytmiczne były przytaczane w przypadkach od wyników wyborów po rozprzestrzenianie się mowy nienawiści w Internecie . Pojawił się również w sądownictwie karnym, opiece zdrowotnej i zatrudnianiu, łącząc istniejące uprzedzenia rasowe, ekonomiczne i płciowe. Względna niezdolność technologii rozpoznawania twarzy do dokładnej identyfikacji twarzy o ciemniejszej karnacji została powiązana z wielokrotnymi bezprawnymi aresztowaniami czarnoskórych mężczyzn, problemem wynikającym z niezrównoważonych zbiorów danych. Problemy ze zrozumieniem, badaniem i odkrywaniem stronniczości algorytmicznej utrzymują się ze względu na zastrzeżoną naturę algorytmów, które zazwyczaj traktuje się jako tajemnice handlowe. Nawet przy zapewnieniu pełnej przejrzystości złożoność niektórych algorytmów stanowi przeszkodę w zrozumieniu ich funkcjonowania. Ponadto algorytmy mogą zmieniać się lub reagować na dane wejściowe lub wyjściowe w sposób, którego nie można przewidzieć ani łatwo odtworzyć do analizy. W wielu przypadkach, nawet w obrębie jednej witryny lub aplikacji, nie ma jednego „algorytmu” do zbadania, ale sieć wielu powiązanych ze sobą programów i danych wejściowych, nawet między użytkownikami tej samej usługi.

Definicje

Diagram z 1969 pokazujący, jak prosty program komputerowy podejmuje decyzje, ilustrujący bardzo prosty algorytm.

Algorytmy są trudne do zdefiniowania , ale mogą być ogólnie rozumiane jako listy instrukcji, które określają, w jaki sposób programy odczytują, zbierają, przetwarzają i analizują dane w celu wygenerowania danych wyjściowych. Aby zapoznać się z rygorystycznym wprowadzeniem technicznym, zobacz Algorytmy . Postępy w sprzęcie komputerowym doprowadziły do ​​zwiększenia możliwości przetwarzania, przechowywania i przesyłania danych. To z kolei przyspieszyło projektowanie i wdrażanie technologii, takich jak uczenie maszynowe i sztuczna inteligencja . Analizując i przetwarzając dane, algorytmy stanowią podstawę wyszukiwarek, serwisów społecznościowych, wyszukiwarek rekomendacji, sprzedaży internetowej, reklam internetowych i nie tylko.

Współcześni socjolodzy zajmują się procesami algorytmicznymi wbudowanymi w aplikacje sprzętowe i programowe ze względu na ich polityczny i społeczny wpływ i kwestionują podstawowe założenia neutralności algorytmu. Termin tendencyjność algorytmiczna opisuje systematyczne i powtarzalne błędy, które powodują niesprawiedliwe wyniki, takie jak uprzywilejowanie jednej arbitralnej grupy użytkowników nad innymi. Na przykład algorytm oceny kredytowej może odmówić udzielenia pożyczki, nie będąc niesprawiedliwym, jeśli konsekwentnie waży odpowiednie kryteria finansowe. Jeśli algorytm rekomenduje pożyczki jednej grupie użytkowników, ale odmawia pożyczek innej grupie prawie identycznych użytkowników na podstawie niepowiązanych kryteriów i jeśli takie zachowanie można powtarzać w wielu przypadkach, algorytm można określić jako stronniczy . Ten błąd może być zamierzony lub niezamierzony (na przykład może pochodzić z tendencyjnych danych uzyskanych od pracownika, który wcześniej wykonywał pracę, którą algorytm będzie wykonywał od teraz).

Metody

Bias można wprowadzić do algorytmu na kilka sposobów. Podczas gromadzenia zbioru danych dane mogą być gromadzone, digitalizowane, dostosowywane i wprowadzane do bazy danych zgodnie z kryteriami katalogowania zaprojektowanymi przez człowieka . Następnie programiści przypisują priorytety lub hierarchie , w jaki sposób program ocenia i sortuje te dane. Wymaga to ludzkich decyzji dotyczących kategoryzacji danych oraz uwzględniania lub odrzucania danych. Niektóre algorytmy gromadzą własne dane w oparciu o kryteria wybrane przez człowieka, które mogą również odzwierciedlać stronniczość ludzkich projektantów. Inne algorytmy mogą wzmacniać stereotypy i preferencje podczas przetwarzania i wyświetlania „istotnych” danych dla użytkowników, na przykład poprzez wybór informacji na podstawie wcześniejszych wyborów podobnego użytkownika lub grupy użytkowników.

Poza gromadzeniem i przetwarzaniem danych, w wyniku projektowania mogą pojawić się uprzedzenia. Na przykład algorytmy, które określają alokację zasobów lub kontrolę (takie jak określanie miejsc w szkole) mogą nieumyślnie dyskryminować kategorię przy określaniu ryzyka na podstawie podobnych użytkowników (jak w przypadku oceny kredytowej). Tymczasem silniki rekomendacji, które kojarzą użytkowników z podobnymi użytkownikami lub wykorzystują wywnioskowane cechy marketingowe, mogą opierać się na niedokładnych skojarzeniach, które odzwierciedlają szerokie stereotypy etniczne, płciowe, społeczno-ekonomiczne lub rasowe. Inny przykład pochodzi z określania kryteriów uwzględniania i wykluczania z wyników. Kryteria te mogą przedstawiać nieoczekiwane wyniki w wynikach wyszukiwania, na przykład w przypadku oprogramowania rekomendującego loty, które pomija loty, które nie są zgodne ze ścieżką lotów sponsorującej linii lotniczej. Algorytmy mogą również wykazywać błąd niepewności , oferując bardziej pewne oceny, gdy dostępne są większe zbiory danych. Może to skłaniać procesy algorytmiczne w kierunku wyników, które ściślej korespondują z większymi próbami, co może pomijać dane z niedostatecznie reprezentowanych populacji.

Historia

Wczesna krytyka

Ta karta była używana do ładowania oprogramowania do starego komputera typu mainframe. Każdy bajt (na przykład litera 'A') jest wprowadzany przez dziurkowanie. Chociaż współczesne komputery są bardziej złożone, odzwierciedlają ten ludzki proces decyzyjny w gromadzeniu i przetwarzaniu danych.

Najwcześniejsze programy komputerowe zostały zaprojektowane tak, aby naśladować ludzkie rozumowanie i dedukcje i uznano, że działają, gdy pomyślnie i konsekwentnie odtwarzają ludzką logikę. W swojej 1976 książce zasilania komputera i Human Reason , sztuczna inteligencja pionierem Joseph Weizenbaum zasugerował, że nastawienie może powstać zarówno z danych wykorzystywanych w programie, ale również ze sposobu program jest kodowany.

Weizenbaum napisał, że programy to sekwencja reguł stworzonych przez ludzi, których ma przestrzegać komputer. Dzięki konsekwentnemu przestrzeganiu tych zasad programy takie „ucieleśniają prawo”, to znaczy wymuszają określony sposób rozwiązywania problemów. Zasady, którymi kieruje się komputer, opierają się na założeniach programisty komputerowego dotyczących sposobu rozwiązania tych problemów. Oznacza to, że kod może zawierać wyobrażenie programisty o tym, jak działa świat, w tym jego uprzedzenia i oczekiwania. Podczas gdy program komputerowy może w ten sposób uwzględniać stronniczość, Weizenbaum zauważył również, że wszelkie dane wprowadzane do maszyny dodatkowo odzwierciedlają „procesy podejmowania decyzji przez człowieka” podczas selekcji danych.

Na koniec zauważył, że maszyny mogą również przekazywać dobre informacje z niezamierzonymi konsekwencjami, jeśli użytkownicy nie są pewni, jak interpretować wyniki. Weizenbaum przestrzegał przed ufaniem decyzjom podejmowanym przez programy komputerowe, których użytkownik nie rozumie, porównując taką wiarę do turysty, który może trafić do pokoju hotelowego wyłącznie skręcając w lewo lub w prawo podczas rzutu monetą. Co najważniejsze, turysta nie ma podstaw do zrozumienia, w jaki sposób i dlaczego dotarł do celu, a udany przyjazd nie oznacza, że ​​proces jest dokładny i niezawodny.

Wczesny przykład błędu algorytmicznego spowodował, że w latach 1982-1986 aż 60 kobietom i mniejszościom etnicznym odmawiano wstępu do Szkoły Medycznej Szpitala św. z „obco brzmiącymi nazwiskami” opartymi na historycznych trendach w rekrutacji. Podczas gdy wiele szkół w tym czasie stosowało podobne uprzedzenia w procesie selekcji, St. George był najbardziej znany z automatyzacji tego uprzedzenia za pomocą algorytmu, dzięki czemu przyciągnął uwagę ludzi na znacznie szerszą skalę.

W ostatnich latach, kiedy coraz więcej algorytmów zaczęło wykorzystywać metody uczenia maszynowego na danych ze świata rzeczywistego, błąd algorytmiczny można znaleźć częściej z powodu błędu istniejącego w danych.

Współczesna krytyka i odpowiedzi

Chociaż dobrze zaprojektowane algorytmy często określają wyniki, które są równie (lub bardziej) sprawiedliwe niż decyzje ludzi, przypadki stronniczości nadal występują i są trudne do przewidzenia i przeanalizowania. Złożoność analizowania błędu algorytmicznego wzrosła wraz ze złożonością programów i ich projektowania. Decyzje podjęte przez jednego projektanta lub zespół projektantów mogą być ukryte wśród wielu fragmentów kodu stworzonych dla jednego programu; z czasem te decyzje i ich łączny wpływ na wyniki programu mogą zostać zapomniane. Teoretycznie te uprzedzenia mogą tworzyć nowe wzorce zachowań lub „skrypty” w odniesieniu do określonych technologii, gdy kod wchodzi w interakcję z innymi elementami społeczeństwa. Błędy mogą również wpływać na kształtowanie się społeczeństwa wokół punktów danych wymaganych przez algorytmy. Na przykład, jeśli dane wskazują na dużą liczbę aresztowań w określonym obszarze, algorytm może przypisać więcej patroli policyjnych do tego obszaru, co może prowadzić do większej liczby aresztowań.

Decyzje programów algorytmicznych mogą być postrzegane jako bardziej autorytatywne niż decyzje ludzi, którym mają pomagać, proces ten został opisany przez autora Claya Shirky'ego jako „autorytet algorytmiczny”. Shirky używa tego terminu do opisania „decyzji o uznaniu za autorytatywny niezarządzanego procesu wydobywania wartości z różnych, niewiarygodnych źródeł”, takich jak wyniki wyszukiwania. Ta neutralność może być również błędnie przedstawiana przez język, którym posługują się eksperci i media, gdy wyniki są przedstawiane opinii publicznej. Na przykład lista wiadomości wybranych i prezentowanych jako „trenujące” lub „popularne” może zostać utworzona na podstawie znacznie szerszych kryteriów niż tylko ich popularność.

Ze względu na wygodę i autorytet algorytmy są teoretycznie traktowane jako sposób na delegowanie odpowiedzialności na ludzi. Może to skutkować ograniczeniem alternatywnych opcji, kompromisów lub elastyczności. Socjolog Scott Lash skrytykował algorytmy jako nową formę „mocy generatywnej”, ponieważ są one wirtualnym sposobem generowania rzeczywistych celów. Tam, gdzie wcześniej ludzkie zachowanie generowało dane, które miały być zbierane i badane, potężne algorytmy w coraz większym stopniu mogły kształtować i definiować ludzkie zachowania.

Obawy dotyczące wpływu algorytmów na społeczeństwo doprowadziły do ​​utworzenia grup roboczych w organizacjach takich jak Google i Microsoft , które współtworzyły grupę roboczą o nazwie Fairness, Accountability i Transparency in Machine Learning. Pomysły Google obejmują grupy społecznościowe, które patrolują wyniki algorytmów i głosują za kontrolowaniem lub ograniczaniem wyników, które ich zdaniem mają negatywne konsekwencje. W ostatnich latach badanie dotyczące rzetelności, odpowiedzialności i przejrzystości (FAT) algorytmów stało się osobnym interdyscyplinarnym obszarem badawczym z doroczną konferencją o nazwie FAT*. Krytycy sugerują, że inicjatywy FAT nie mogą skutecznie służyć jako niezależne organy nadzoru, gdy wiele z nich jest finansowanych przez korporacje budujące badane systemy.

Rodzaje

Istniejące wcześniej

Istniejące wcześniej uprzedzenia w algorytmie są konsekwencją leżących u ich podstaw ideologii społecznych i instytucjonalnych . Takie pomysły mogą wpływać lub tworzyć osobiste uprzedzenia u poszczególnych projektantów lub programistów. Takie uprzedzenia mogą być jawne i świadome lub ukryte i nieświadome. Źle dobrane dane wejściowe lub po prostu dane z tendencyjnego źródła wpłyną na wyniki tworzone przez maszyny. Zakodowanie istniejących uprzedzeń w oprogramowaniu może zachować uprzedzenia społeczne i instytucjonalne i bez korekty może być powielane we wszystkich przyszłych zastosowaniach tego algorytmu.

Przykładem tej formy uprzedzeń jest program British Nationality Act, mający na celu zautomatyzowanie oceny nowych obywateli brytyjskich po brytyjskiej ustawie o obywatelstwie z 1981 roku . Program trafnie odzwierciedlał założenia prawa, które stanowiło, że „mężczyzna jest ojcem tylko swoich prawowitych dzieci, podczas gdy kobieta jest matką wszystkich swoich dzieci, prawowitych lub nie”. Próbując przenieść określoną logikę do procesu algorytmicznego, BNAP wpisał logikę brytyjskiej ustawy o obywatelstwie do swojego algorytmu, który utrwaliłby ją nawet w przypadku ostatecznego uchylenia ustawy.

Techniczny

Stwierdzono, że oprogramowanie do rozpoznawania twarzy używane w połączeniu z kamerami monitorującymi wykazuje stronniczość w rozpoznawaniu twarzy azjatyckich i czarnych na twarzach białych.

Stronniczość techniczna wynika z ograniczeń programu, mocy obliczeniowej, jego projektu lub innych ograniczeń systemu. Takie nastawienie może również ograniczać projekt, na przykład wyszukiwarka, która pokazuje trzy wyniki na ekranie, może być rozumiana jako uprzywilejowująca trzy najlepsze wyniki nieco bardziej niż trzy następne, jak w przypadku wyświetlania cen linii lotniczych. Innym przypadkiem jest oprogramowanie, które opiera się na losowości w celu uzyskania sprawiedliwego rozkładu wyników. Jeśli mechanizm generowania liczb losowych nie jest naprawdę losowy, może wprowadzić błąd, na przykład poprzez przekrzywienie selekcji w kierunku elementów na końcu lub początku listy.

Decontextualized algorytm wykorzystuje niepowiązanych informacji w celu sortowania wyników, na przykład algorytm Lot-Pricing że sortuje wyniki według kolejności alfabetycznej będzie stronniczy na korzyść American Airlines ponad United Airlines. Może mieć również zastosowanie sytuacja odwrotna, w której wyniki są oceniane w kontekstach innych niż te, w których są gromadzone. Dane mogą być gromadzone bez kluczowego kontekstu zewnętrznego: na przykład, gdy oprogramowanie do rozpoznawania twarzy jest używane przez kamery monitorujące, ale oceniane przez zdalny personel w innym kraju lub regionie lub oceniane przez algorytmy inne niż ludzkie bez świadomości tego, co dzieje się poza kamerą. pole widzenia . Może to spowodować niepełne zrozumienie miejsca przestępstwa, na przykład potencjalnie myląc osoby postronne z tymi, którzy popełnili przestępstwo.

Wreszcie stronniczość techniczną można stworzyć, próbując sformalizować decyzje w konkretne kroki przy założeniu, że ludzkie zachowanie działa w ten sam sposób. Na przykład oprogramowanie waży punkty danych, aby ustalić, czy pozwany powinien zaakceptować ugodę, ignorując wpływ emocji na ławę przysięgłych. Inny niezamierzony wynik tej formy błędu został znaleziony w oprogramowaniu do wykrywania plagiatów Turnitin , które porównuje teksty napisane przez uczniów z informacjami znalezionymi w Internecie i zwraca wynik prawdopodobieństwa, że ​​praca ucznia została skopiowana. Ponieważ oprogramowanie porównuje długie ciągi tekstu, jest bardziej prawdopodobne, że zidentyfikuje osoby niebędące rodzimymi użytkownikami języka angielskiego niż native speakerzy, ponieważ ta druga grupa może być w stanie lepiej zmieniać poszczególne słowa, rozbijać ciągi splagiatowanego tekstu lub ukrywać skopiowane fragmenty synonimy. Ponieważ rodzimym użytkownikom łatwiej jest uniknąć wykrycia ze względu na ograniczenia techniczne oprogramowania, tworzy to scenariusz, w którym Turnitin identyfikuje obcojęzycznych użytkowników języka angielskiego pod kątem plagiatu, jednocześnie pozwalając większej liczbie native speakerów uniknąć wykrycia.

Wyłaniający się

Pojawiające się stronniczość jest wynikiem użycia i polegania na algorytmach w nowych lub nieoczekiwanych kontekstach. Być może algorytmy nie zostały dostosowane do nowych form wiedzy, takich jak nowe leki lub przełomowe odkrycia medyczne, nowe prawa, modele biznesowe lub zmieniające się normy kulturowe. Może to wykluczać grupy za pomocą technologii, bez podawania jasnych zarysów, aby zrozumieć, kto jest odpowiedzialny za ich wykluczenie. Podobnie problemy mogą pojawić się, gdy dane uczące (próbki „wprowadzane” do maszyny, za pomocą których modeluje ona pewne wnioski) nie są zgodne z kontekstami, które algorytm napotyka w świecie rzeczywistym.

W 1990 r. w programie National Residency Match Program (NRMP) używanym do umieszczania amerykańskich studentów medycyny na rezydenturach zidentyfikowano przykład pojawiającego się błędu. Algorytm został zaprojektowany w czasie, gdy niewiele par małżeńskich wspólnie szukało miejsca zamieszkania. Ponieważ coraz więcej kobiet wstąpiło do szkół medycznych, więcej studentów mogło prosić o pobyt u boku swoich partnerów. Proces wymagał od każdego kandydata dostarczenia listy preferencji dotyczących umieszczenia w Stanach Zjednoczonych, która została następnie posortowana i przypisana, gdy szpital i wnioskodawca zgodzili się na dopasowanie. W przypadku par małżeńskich, w których oboje poszukiwali miejsca zamieszkania, algorytm w pierwszej kolejności ważył wybór lokalizacji wyżej ocenianego partnera. Rezultatem było częste przypisywanie wysoce preferowanych szkół pierwszemu partnerowi, a szkół o niższych preferencjach drugiemu partnerowi, zamiast szukania kompromisów w preferowaniu miejsca.

Dodatkowe pojawiające się uprzedzenia obejmują:

Korelacje

Nieprzewidywalne korelacje mogą pojawić się, gdy porównuje się ze sobą duże zbiory danych. Na przykład dane zebrane na temat wzorców przeglądania sieci mogą być zgodne z sygnałami oznaczającymi dane wrażliwe (takie jak rasa lub orientacja seksualna). Wybierając zgodnie z pewnymi zachowaniami lub wzorcami przeglądania, efekt końcowy byłby prawie identyczny z dyskryminacją poprzez wykorzystanie bezpośrednich danych o rasie lub orientacji seksualnej. Może to skutkować doświadczeniami dysonansu algorytmicznego. W innych przypadkach algorytm wyciąga wnioski z korelacji, nie będąc w stanie zrozumieć tych korelacji. Na przykład w jednym programie segregacyjnym przyznano niższy priorytet astmatykom z zapaleniem płuc niż astmatykom, którzy nie mieli zapalenia płuc. Algorytm programu zrobił to, ponieważ po prostu porównał wskaźniki przeżycia: astmatycy z zapaleniem płuc są najbardziej narażeni na ryzyko. Historycznie, z tego samego powodu szpitale zazwyczaj zapewniają takim astmatykom najlepszą i najbardziej natychmiastową opiekę.

Nieoczekiwane zastosowania

Pojawiające się uprzedzenia mogą wystąpić, gdy algorytm jest używany przez nieoczekiwanych odbiorców. Na przykład maszyny mogą wymagać, aby użytkownicy mogli czytać, pisać lub rozumieć liczby lub odnosić się do interfejsu za pomocą metafor, których nie rozumieją. Te wykluczenia mogą się spotęgować, ponieważ tendencyjna lub wykluczająca technologia jest głębiej zintegrowana ze społeczeństwem.

Oprócz wykluczenia, nieprzewidziane zastosowania mogą wynikać z tego, że użytkownik końcowy polega na oprogramowaniu, a nie na własnej wiedzy. W jednym z przykładów nieoczekiwana grupa użytkowników doprowadziła do błędu algorytmicznego w Wielkiej Brytanii, gdy brytyjski National Act Program został stworzony jako weryfikacja koncepcji przez informatyków i prawników ds . imigracji w celu oceny przydatności do brytyjskiego obywatelstwa . Projektanci mieli dostęp do wiedzy prawnej wykraczającej poza użytkowników końcowych w biurach imigracyjnych, których zrozumienie zarówno oprogramowania, jak i prawa imigracyjnego byłoby prawdopodobnie niewyszukane. Agenci zadający pytania polegali całkowicie na oprogramowaniu, które wykluczało alternatywne ścieżki uzyskania obywatelstwa, i korzystali z oprogramowania nawet po tym, jak nowe orzecznictwo i interpretacje prawne doprowadziły do ​​dezaktualizacji algorytmu. W wyniku zaprojektowania algorytmu dla użytkowników, co do których zakłada się, że znają się na prawie imigracyjnym, algorytm oprogramowania pośrednio doprowadził do stronniczości na korzyść wnioskodawców, którzy pasują do bardzo wąskiego zestawu kryteriów prawnych określonych przez algorytm, a nie szerszych kryteriów. brytyjskiego prawa imigracyjnego.

Pętle sprzężenia zwrotnego

Pojawiające się odchylenia mogą również tworzyć pętlę sprzężenia zwrotnego lub rekurencję, jeśli dane zebrane dla algorytmu dają odpowiedzi w świecie rzeczywistym, które są przekazywane z powrotem do algorytmu. Na przykład symulacje predykcyjnego oprogramowania policyjnego (PredPol), wdrożonego w Oakland w Kalifornii, sugerowały zwiększoną obecność policji w czarnych dzielnicach w oparciu o dane o przestępstwach zgłaszane przez społeczeństwo. Symulacja wykazała, że ​​społeczeństwo zgłaszało przestępstwa na podstawie widoku samochodów policyjnych, niezależnie od tego, co robiła policja. Symulacja zinterpretowała obserwacje policyjnego samochodu w celu modelowania przewidywań przestępczości, a z kolei przypisałaby jeszcze większy wzrost obecności policji w tych dzielnicach. Praw Człowieka Grupa Analiza danych , które przeprowadzono symulację, ostrzegł, że w miejscach, w których dyskryminacja rasowa jest czynnikiem aresztowań, takie pętle sprzężenia zwrotnego mogłaby wzmocnić i utrwalić dyskryminacji rasowej w policji. Innym dobrze znanym przykładem takiego algorytmu wykazującego takie zachowanie jest COMPAS , oprogramowanie, które określa prawdopodobieństwo zostania przestępcą. Oprogramowanie jest często krytykowane za określanie osób czarnoskórych jako przestępców z większym prawdopodobieństwem niż inne, a następnie przesyła dane z powrotem do siebie w przypadku, gdy osoby te stają się zarejestrowanymi przestępcami, dodatkowo wymuszając stronniczość stworzoną przez zbiór danych, na którym działa algorytm.

Systemy rekomendacji, takie jak te używane do polecania filmów online lub artykułów z wiadomościami, mogą tworzyć pętle zwrotne. Gdy użytkownicy klikają treść sugerowaną przez algorytmy, wpływa to na kolejny zestaw sugestii. Z czasem może to prowadzić do tego, że użytkownicy wejdą do bańki filtrującej i nie będą świadomi ważnych lub przydatnych treści.

Uderzenie

wpływy komercyjne

Algorytmy korporacyjne mogą zostać przekrzywione, aby w niewidoczny sposób faworyzować porozumienia finansowe lub umowy między firmami, bez wiedzy użytkownika, który może pomylić algorytm jako bezstronny. Na przykład American Airlines stworzyły algorytm wyszukiwania lotów w latach 80. XX wieku. Oprogramowanie zaprezentowało klientom szereg lotów różnych linii lotniczych, ale rozważyło czynniki, które poprawiły jego własne loty, niezależnie od ceny lub wygody. W zeznaniach przed Kongresem Stanów Zjednoczonych prezes linii stwierdził wprost, że system powstał z zamiarem uzyskania przewagi konkurencyjnej poprzez preferencyjne traktowanie.

W artykule z 1998 roku opisującym Google , założyciele firmy przyjęli politykę przejrzystości wyników wyszukiwania w odniesieniu do płatnego lokowania, argumentując, że „wyszukiwarki finansowane z reklam będą z natury stronnicze w stosunku do reklamodawców i z dala od potrzeb konsumentów”. To nastawienie byłoby „niewidzialną” manipulacją użytkownika.

Zachowanie głosowania

Seria badań dotyczących niezdecydowanych wyborców w USA i Indiach wykazała, że ​​wyniki wyszukiwarek były w stanie zmienić wyniki głosowania o około 20%. Naukowcy doszli do wniosku, że kandydaci „nie mają możliwości konkurowania”, jeśli algorytm, z zamiarem lub bez, podniesie listę stron konkurencyjnego kandydata. Użytkownicy Facebooka, którzy widzieli wiadomości związane z głosowaniem, byli bardziej skłonni do głosowania. Randomizowane badanie użytkowników Facebooka z 2010 r. wykazało 20% wzrost (340 000 głosów) wśród użytkowników, którzy widzieli wiadomości zachęcające do głosowania, a także zdjęcia swoich znajomych, którzy głosowali. Prawnik Jonathan Zittrain ostrzegł, że może to wywołać efekt „cyfrowego gerrymanderingu” w wyborach, „selektywnego prezentowania informacji przez pośrednika w celu spełnienia jego programu, a nie służenia jego użytkownikom”, jeśli zostanie celowo zmanipulowany.

Dyskryminacja płciowa

W 2016 r. odkryto , że profesjonalny serwis sieciowy LinkedIn poleca męskie odmiany imion kobiecych w odpowiedzi na zapytania wyszukiwania. Witryna nie przedstawiła podobnych rekomendacji w wyszukiwaniach męskich imion. Na przykład „Andrea” wyświetli monit z pytaniem, czy użytkownicy mają na myśli „Andrea”, ale zapytania o „Andrea” nie pytają, czy użytkownicy mają na myśli znalezienie „Andrea”. Firma powiedziała, że ​​był to wynik analizy interakcji użytkowników z witryną.

W 2012 r. powołano się na franczyzę Target domu towarowego, aby zebrać dane, aby wywnioskować, kiedy klientki są w ciąży, nawet jeśli tego nie ogłosiły, a następnie podzielić się tymi informacjami z partnerami marketingowymi. Ponieważ dane zostały przewidziane, a nie bezpośrednio zaobserwowane lub zgłoszone, firma nie miała prawnego obowiązku ochrony prywatności tych klientów.

Algorytmy wyszukiwania w sieci również zostały oskarżone o stronniczość. Wyniki Google mogą priorytetowo traktować treści pornograficzne w wyszukiwanych hasłach związanych z seksualnością, na przykład „lesbijka”. To uprzedzenie rozciąga się na wyszukiwarkę wyświetlającą popularne, ale zseksualizowane treści w neutralnych wyszukiwaniach. Na przykład artykuły „25 najseksowniejszych sportowców” wyświetlane jako wyniki na pierwszej stronie w wynikach wyszukiwania hasła „sportowcy”. W 2017 r. Google skorygowało te wyniki wraz z innymi, które ujawniły grupy nienawiści , rasistowskie poglądy, wykorzystywanie dzieci i pornografię oraz inne niepokojące i obraźliwe treści. Inne przykłady obejmują wyświetlanie lepiej płatnych miejsc pracy kandydatom płci męskiej w witrynach wyszukiwania ofert pracy. Naukowcy ustalili również, że tłumaczenie maszynowe wykazuje silną tendencję do błędnych zachowań męskich. W szczególności obserwuje się to w dziedzinach związanych z niezrównoważonym rozkładem płci, w tym w zawodach STEM . W rzeczywistości obecne systemy tłumaczenia maszynowego nie są w stanie odtworzyć rzeczywistego rozmieszczenia pracownic w świecie rzeczywistym .

W 2015 roku Amazon.com wyłączył opracowany przez siebie system sztucznej inteligencji do sprawdzania podań o pracę, gdy zdał sobie sprawę, że jest on stronniczy w stosunku do kobiet. Narzędzie rekrutacyjne wykluczało kandydatów, którzy uczęszczali do kolegiów wyłącznie dla kobiet i życiorysów zawierających słowo „damskie”. Podczas korzystania z serwisów do strumieniowego przesyłania muzyki działy się podobne rzeczy. W 2019 roku Spotify odkryto, że jego algorytm systemu rekomendacji był stronniczy w stosunku do artystek. Rekomendacje utworów Spotify sugerowały więcej artystów płci męskiej niż artystek.

Dyskryminacja rasowa i etniczna

Algorytmy były krytykowane jako metoda ukrywania uprzedzeń rasowych w procesie podejmowania decyzji. Ze względu na sposób, w jaki niektóre rasy i grupy etniczne były traktowane w przeszłości, dane często mogą zawierać ukryte uprzedzenia. Na przykład czarnoskórzy prawdopodobnie otrzymają dłuższe wyroki niż biali, którzy popełnili to samo przestępstwo. Może to potencjalnie oznaczać, że system wzmacnia oryginalne błędy w danych.

W 2015 roku Google przeprosił, gdy czarnoskórzy użytkownicy skarżyli się, że algorytm identyfikacji obrazu w aplikacji Zdjęcia zidentyfikował ich jako goryle . W 2010 roku aparaty firmy Nikon były krytykowane, gdy algorytmy rozpoznawania obrazu konsekwentnie pytały użytkowników z Azji, czy mrugają. Takie przykłady są wynikiem stronniczości w zbiorach danych biometrycznych . Dane biometryczne są pobierane z różnych aspektów ciała, w tym z zaobserwowanych lub wywnioskowanych cech rasowych, które można następnie przenieść do punktów danych. Technologia rozpoznawania mowy może mieć różną dokładność w zależności od akcentu użytkownika. Może to być spowodowane brakiem danych treningowych dla osób mówiących o tym akcencie.

Dane biometryczne dotyczące rasy można również wywnioskować, a nie obserwować. Na przykład badanie z 2012 r. wykazało, że nazwiska powszechnie kojarzone z czarnoskórymi częściej dawały wyniki wyszukiwania sugerujące akta aresztowania, niezależnie od tego, czy istnieje jakikolwiek policyjny zapis nazwiska tej osoby. Badanie z 2015 r. wykazało również, że ludzie rasy czarnej i Azjaci mają słabiej funkcjonujące płuca ze względu na to, że dane dotyczące narażenia rasowego i zawodowego nie zostały uwzględnione w modelu funkcji płuc algorytmu prognozowania.

W 2019 roku badanie wykazało, że algorytm opieki zdrowotnej sprzedawany przez Optum faworyzuje białych pacjentów nad bardziej chorymi czarnymi pacjentami. Algorytm przewiduje, ile pacjenci będą kosztować system opieki zdrowotnej w przyszłości. Jednak koszt nie jest neutralny rasowo, ponieważ czarni pacjenci ponoszą rocznie o około 1800 USD mniej kosztów medycznych niż biali pacjenci z taką samą liczbą przewlekłych schorzeń, co doprowadziło do tego, że algorytm oceniał białych pacjentów jako równie zagrożonych problemami zdrowotnymi w przyszłości, jak czarni pacjenci, którzy cierpieli na znacznie więcej chorób.

Badanie przeprowadzone przez naukowców z UC Berkeley w listopadzie 2019 r. wykazało, że algorytmy hipoteczne dyskryminują Latynosów i Afroamerykanów, którzy dyskryminują mniejszości na podstawie „wiarygodności kredytowej”, która jest zakorzeniona w amerykańskim prawie dotyczącym uczciwego udzielania pożyczek, które pozwala pożyczkodawcom na stosowanie środków identyfikacji aby ustalić, czy dana osoba jest warta otrzymania pożyczki. Te konkretne algorytmy były obecne w firmach FinTech i wykazano, że dyskryminują mniejszości.

Egzekwowanie prawa i postępowanie sądowe

Algorytmy mają już liczne zastosowania w systemach prawnych. Przykładem tego jest COMPAS , program komercyjny szeroko stosowany przez sądy amerykańskie do oceny prawdopodobieństwa, że pozwany stanie się recydywistą . ProPublica twierdzi, że średni poziom ryzyka recydywy przypisany przez COMPAS czarnych pozwanych jest znacznie wyższy niż średni poziom ryzyka przypisany przez COMPAS białych pozwanych oraz że czarnym pozwanym dwukrotnie częściej błędnie zostanie przypisana etykieta „wysokiego ryzyka” niż biały pozwani.

Jednym z przykładów jest wykorzystanie oceny ryzyka w wyrokach karnych w Stanach Zjednoczonych i przesłuchaniach w sprawie zwolnienia warunkowego , sędziom przedstawiono algorytmicznie wygenerowany wynik mający odzwierciedlać ryzyko, że skazany powtórzy przestępstwo. W okresie rozpoczynającym się w 1920 r. i kończącym się w 1970 r. narodowość ojca przestępcy była brana pod uwagę w tych wynikach oceny ryzyka. Dziś wyniki te są udostępniane sędziom w Arizonie, Kolorado, Delaware, Kentucky, Luizjanie, Oklahomie, Wirginii, Waszyngtonie i Wisconsin. Niezależne dochodzenie przeprowadzone przez ProPublica wykazało, że wyniki były niedokładne w 80% przypadków i nieproporcjonalnie przekrzywione, sugerując, że czarni są narażeni na ryzyko nawrotu, 77% częściej niż biali.

Jedno z badań, które miało na celu zbadanie „Ryzyko, rasa i recydywa: uprzedzenia predykcyjne i niejednorodny wpływ” wskazuje na dwukrotne (45% w porównaniu z 23%) prawdopodobieństwo błędnego zaklasyfikowania oskarżonych rasy czarnej i kaukaskiej jako stwarzających wyższe ryzyko. pomimo obiektywnego pozostawania bez udokumentowanej recydywy w ciągu dwuletniego okresu obserwacji.

Mowa nienawiści w Internecie

Jak wynika z wewnętrznych dokumentów Facebooka, w 2017 r. algorytm Facebooka zaprojektowany do usuwania mowy nienawiści w Internecie miał przewagę białych mężczyzn nad czarnymi dziećmi podczas oceny kontrowersyjnych treści. Algorytm, który jest połączeniem programów komputerowych i recenzentów treści ludzkich, został stworzony w celu ochrony szerokich kategorii, a nie określonych podzbiorów kategorii. Na przykład wpisy potępiające „muzułmanów” byłyby blokowane, podczas gdy wpisy potępiające „radykalnych muzułmanów” byłyby dozwolone. Nieoczekiwanym rezultatem algorytmu jest zezwolenie na mowę nienawiści wobec czarnych dzieci, ponieważ potępiają one podzbiór „dzieci” czarnych, a nie „wszystkich czarnych”, podczas gdy „wszyscy biali mężczyźni” wywołaliby blokadę, ponieważ biali i mężczyźni nie są uważane za podzbiory. Stwierdzono również, że Facebook pozwala nabywcom reklam kierować reklamy do „nienawidzących Żydów” jako kategorii użytkowników, co według firmy było nieumyślnym wynikiem algorytmów wykorzystywanych do oceny i kategoryzacji danych. Projekt firmy umożliwiał także kupującym reklamy blokowanie Afroamerykanom oglądania reklam mieszkań.

Chociaż algorytmy są wykorzystywane do śledzenia i blokowania mowy nienawiści, niektóre okazały się 1,5 raza bardziej skłonne do oznaczania informacji publikowanych przez czarnoskórych użytkowników i 2,2 razy częściej do oznaczania informacji jako mowy nienawiści, jeśli są napisane w języku ebonicznym. Bez kontekstu dla oszczerstw i epitetów, nawet stosowanych przez społeczności, które je ponownie przywłaszczyły, były oznaczane.

Nadzór

Oprogramowanie kamer do monitoringu może być uważane za z natury polityczne, ponieważ wymaga algorytmów do odróżniania zachowań normalnych od nienormalnych oraz do określania, kto należy w określonych lokalizacjach w określonym czasie. Wykazano, że zdolność takich algorytmów do rozpoznawania twarzy w różnych rasach jest ograniczona ze względu na rasową różnorodność obrazów w treningowej bazie danych; jeśli większość zdjęć należy do jednej rasy lub płci, oprogramowanie lepiej rozpoznaje innych członków tej rasy lub płci. Jednak nawet audyty tych systemów rozpoznawania obrazów są etycznie obarczone, a niektórzy badacze sugerują, że kontekst technologii zawsze będzie miał nieproporcjonalny wpływ na społeczności, których działania są nadmiernie nadzorowane. Na przykład analiza oprogramowania używanego do identyfikacji osób na obrazach z telewizji przemysłowej z 2002 r. wykazała kilka przykładów stronniczości w bazach danych kryminalnych. Oprogramowanie zostało ocenione jako identyfikujące mężczyzn częściej niż kobiety, starsze osoby częściej niż młode oraz częściej identyfikujące Azjatów, Afroamerykanów i inne rasy niż białe. Dodatkowe badania oprogramowania do rozpoznawania twarzy wykazały, że w przypadku szkolenia w bazach danych innych niż kryminalne jest odwrotnie, przy czym oprogramowanie to jest najmniej dokładne w identyfikowaniu kobiet o ciemniejszej karnacji.

Dyskryminacja seksualna

W 2011 roku użytkownicy aplikacji do podłączania gejów Grindr poinformowali, że algorytm rekomendacji sklepu z Androidem łączy Grindr z aplikacjami przeznaczonymi do wyszukiwania przestępców seksualnych, co według krytyków jest nieprecyzyjnie powiązane homoseksualizmem z pedofilią . Pisarz Mike Ananny skrytykował to stowarzyszenie w The Atlantic , argumentując, że takie stowarzyszenia jeszcze bardziej stygmatyzują gejów . W 2009 r. sklep internetowy Amazon wycofał z listy 57 000 książek po zmianie algorytmicznej, rozszerzył swoją czarną listę „treści dla dorosłych” o wszelkie książki poruszające seksualność lub tematy gejowskie, takie jak uznana przez krytyków powieść Brokeback Mountain .

W 2019 roku okazało się, że na Facebooku wyszukiwania hasła „zdjęcia moich koleżanek” przyniosły sugestie, takie jak „w bikini” lub „na plaży”. Natomiast wyszukiwanie hasła „zdjęcia moich męskich przyjaciół” nie przyniosło żadnych wyników.

Zaobserwowano, że technologia rozpoznawania twarzy powoduje problemy u osób transpłciowych. W 2018 r. pojawiły się doniesienia o kierowcach Uber, którzy byli transpłciowi lub przechodzili, którzy mieli trudności z oprogramowaniem do rozpoznawania twarzy, które Uber wdraża jako wbudowany środek bezpieczeństwa. W rezultacie niektóre konta kierowców trans uber zostały zawieszone, co kosztowało ich opłaty i potencjalnie kosztowało ich pracę, a wszystko to ze względu na problemy z rozpoznawaniem twarzy kierowcy trans uber przez oprogramowanie do rozpoznawania twarzy. Chociaż rozwiązaniem tego problemu wydaje się uwzględnienie osób trans w zestawach szkoleniowych dla modeli uczenia maszynowego, w przypadku filmów z YouTube dotyczących osób trans, które zostały zebrane w celu wykorzystania w danych szkoleniowych, osoby trans nie uzyskały zgody od osób trans, które zostały uwzględnione w filmach. , co stworzyło problem naruszenia prywatności.

W 2017 roku na Uniwersytecie Stanforda przeprowadzono również badanie, w którym przetestowano algorytmy w systemie uczenia maszynowego, który, jak mówiono, jest w stanie wykryć orientację seksualną danej osoby na podstawie jej wizerunku twarzy. Model w badaniu przewidywał prawidłowe rozróżnienie między gejami i heteroseksualnymi mężczyznami w 81% przypadków oraz prawidłowe rozróżnienie między gejami i heteroseksualnymi kobietami w 74% przypadków. Badanie to wywołało reakcję społeczności LGBTQIA, która obawiała się możliwych negatywnych konsekwencji, jakie ten system sztucznej inteligencji może mieć dla osób ze społeczności LGBTQIA, narażając osoby na ryzyko „wyrzucenia” wbrew ich woli.

Wyszukiwarka Google

Podczas gdy użytkownicy generują wyniki, które są „uzupełniane” automatycznie, Google nie udało się usunąć seksistowskiego i rasistowskiego tekstu autouzupełniania. Na przykład Algorithms of Oppression: How Search Engines Reinforce Racism Safiya Noble odnotowuje przykład wyszukiwania hasła „czarne dziewczyny”, które miało skutkować obrazami pornograficznymi. Google twierdziło, że nie było w stanie usunąć tych stron, chyba że zostały uznane za niezgodne z prawem.

Przeszkody w badaniach

Kilka problemów utrudnia badanie błędu algorytmicznego na dużą skalę, utrudniając stosowanie akademickich rygorystycznych badań i zrozumienie opinii publicznej.

Definiowanie uczciwości

Literatura na temat tendencyjności algorytmicznej koncentruje się na remedium na sprawiedliwość, ale definicje uczciwości są często niezgodne ze sobą i realiami optymalizacji uczenia maszynowego. Na przykład, zdefiniowanie sprawiedliwości jako „równości wyników” może po prostu odnosić się do systemu dającego ten sam wynik dla wszystkich ludzi, podczas gdy sprawiedliwość zdefiniowana jako „równość traktowania” może wyraźnie uwzględniać różnice między jednostkami. W rezultacie uczciwość jest czasami opisywana jako sprzeczna z dokładnością modelu, co sugeruje wewnętrzne napięcia między priorytetami opieki społecznej a priorytetami dostawców projektujących te systemy. W odpowiedzi na to napięcie naukowcy zasugerowali większą dbałość o projektowanie i używanie systemów, które opierają się na potencjalnie tendencyjnych algorytmach, z „uczciwością” zdefiniowaną dla określonych zastosowań i kontekstów.

Złożoność

Procesy algorytmiczne są złożone , często przekraczające zrozumienie osób, które z nich korzystają. Operacje na dużą skalę mogą nie zostać zrozumiane nawet przez osoby zaangażowane w ich tworzenie. Metody i procesy współczesnych programów są często zaciemniane przez niemożność poznania każdej permutacji danych wejściowych lub wyjściowych kodu. Socjolog Bruno Latour określił ten proces jako blackboxing , proces, w którym „praca naukowa i techniczna staje się niewidoczna dzięki jej własnemu sukcesowi. wyników, a nie ich wewnętrznej złożoności. Paradoksalnie, im bardziej nauka i technologia odnoszą sukces, tym bardziej stają się nieprzejrzyste i niejasne”. Inni krytykowali metaforę czarnej skrzynki, sugerując, że obecne algorytmy nie są jedną czarną skrzynką, ale siecią wzajemnie powiązanych.

Przykład tej złożoności można znaleźć w zakresie danych wejściowych do dostosowywania informacji zwrotnych. Portal społecznościowy Facebook uwzględnił co najmniej 100 000 punktów danych, aby określić układ kanału mediów społecznościowych użytkownika w 2013 roku. Co więcej, duże zespoły programistów mogą działać we względnej izolacji od siebie i być nieświadome skumulowanych skutków małych decyzji w ramach połączonych, rozbudowanych algorytmów. Nie cały kod jest oryginalny i może być zapożyczony z innych bibliotek, tworząc skomplikowany zestaw relacji między przetwarzaniem danych a systemami wprowadzania danych.

Dodatkowa złożoność pojawia się dzięki uczeniu maszynowemu i personalizacji algorytmów na podstawie interakcji użytkownika, takich jak kliknięcia, czas spędzony w witrynie i inne dane. Te osobiste dostosowania mogą mylić ogólne próby zrozumienia algorytmów. Jedna niezidentyfikowana usługa radia strumieniowego poinformowała, że ​​użyła pięciu unikalnych algorytmów wyboru muzyki, które wybrała dla swoich użytkowników na podstawie ich zachowania. Stwarza to różne doświadczenia z tymi samymi usługami przesyłania strumieniowego między różnymi użytkownikami, co utrudnia zrozumienie, co robią te algorytmy. Firmy przeprowadzają również częste testy A/B w celu dostrojenia algorytmów na podstawie odpowiedzi użytkownika. Na przykład wyszukiwarka Bing może uruchamiać do dziesięciu milionów subtelnych odmian swojej usługi dziennie, tworząc różne doświadczenia usługi między każdym użyciem i/lub użytkownikiem.

Brak przejrzystości

Algorytmy komercyjne są zastrzeżone i mogą być traktowane jako tajemnice handlowe . Traktowanie algorytmów jako tajemnic handlowych chroni firmy, takie jak wyszukiwarki , w których przejrzysty algorytm może ujawnić taktykę manipulowania rankingami wyszukiwania. Utrudnia to naukowcom przeprowadzanie wywiadów lub analiz w celu odkrycia, jak działają algorytmy. Krytycy sugerują, że taka tajemnica może również przesłonić możliwe nieetyczne metody wykorzystywane do tworzenia lub przetwarzania wyników algorytmicznych. Inni krytycy, tacy jak prawniczka i aktywistka Katarzyna Szymielewicz, sugerowali, że brak przejrzystości jest często maskowany jako wynik złożoności algorytmicznej, chroniącej firmy przed ujawnieniem lub zbadaniem własnych procesów algorytmicznych.

Brak danych o wrażliwych kategoriach

Istotną przeszkodą w zrozumieniu walki z uprzedzeniami w praktyce jest to, że przy gromadzeniu i przetwarzaniu danych często nie bierze się wyraźnie pod uwagę takich kategorii, jak dane demograficzne osób chronionych prawem antydyskryminacyjnym . W niektórych przypadkach istnieje niewielka możliwość bezpośredniego gromadzenia tych danych, na przykład w przypadku odcisków palców urządzeń , przetwarzania wszechobecnego i Internetu rzeczy . W innych przypadkach administrator danych może nie chcieć zbierać takich danych z powodów związanych z reputacją lub dlatego, że wiąże się to z podwyższoną odpowiedzialnością i zagrożeniem bezpieczeństwa. Może się również zdarzyć, że, przynajmniej w odniesieniu do ogólnego rozporządzenia o ochronie danych Unii Europejskiej , takie dane podlegają przepisom „specjalnej kategorii” (art. 9), a zatem wiążą się z większymi ograniczeniami w potencjalnym gromadzeniu i przetwarzaniu.

Niektórzy praktycy próbowali oszacować i przypisać te brakujące wrażliwe kategorie, aby umożliwić łagodzenie uprzedzeń, na przykład budowanie systemów wnioskowania o pochodzeniu etnicznym z nazwisk, jednak może to wprowadzić inne formy uprzedzeń, jeśli nie zostanie podjęte z ostrożnością. Naukowcy zajmujący się uczeniem maszynowym skorzystali z technologii zwiększających prywatność kryptograficzną , takich jak bezpieczne obliczenia wielostronne, aby zaproponować metody, dzięki którym można ocenić lub złagodzić błąd algorytmiczny, tak aby dane te nigdy nie były dostępne dla osób zajmujących się modelowaniem w postaci zwykłego tekstu .

Błąd algorytmiczny obejmuje nie tylko kategorie chronione, ale może również dotyczyć cech trudniej obserwowalnych lub kodyfikowalnych, takich jak poglądy polityczne. W takich przypadkach rzadko istnieje łatwo dostępna lub niekontrowersyjna podstawowa prawda , a usunięcie błędu z takiego systemu jest trudniejsze. Ponadto fałszywe i przypadkowe korelacje mogą wynikać z braku zrozumienia kategorii chronionych, na przykład stawek ubezpieczeniowych opartych na danych historycznych dotyczących wypadków samochodowych, które mogą pokrywać się, ściśle przez przypadek, ze skupiskami mieszkalnymi mniejszości etnicznych.

Rozwiązania

Badanie 84 wytycznych dotyczących polityki etycznej sztucznej inteligencji wykazało, że uczciwość i „łagodzenie niepożądanej stronniczości” były powszechnym problemem i zostały rozwiązane poprzez połączenie rozwiązań technicznych, przejrzystości i monitorowania, prawa do naprawienia szkody i zwiększonego nadzoru oraz różnorodności i wysiłki na rzecz integracji.

Techniczny

Podjęto kilka prób stworzenia metod i narzędzi, które mogą wykrywać i obserwować błędy w algorytmie. Te wyłaniające się pola koncentrują się na narzędziach, które są zwykle stosowane do danych (treningu) wykorzystywanych przez program, a nie na wewnętrznych procesach algorytmu. Metody te mogą również analizować wynik programu i jego użyteczność, a zatem mogą obejmować analizę jego macierzy pomyłek (lub tabeli pomyłek). Wyjaśnialna sztuczna inteligencja do wykrywania algorytmu Błąd to sugerowany sposób wykrywania istnienia błędu w algorytmie lub modelu uczenia się. Wykorzystywanie uczenia maszynowego do wykrywania uprzedzeń nazywa się „przeprowadzeniem audytu AI”, gdzie „audytor” to algorytm, który przechodzi przez model AI i dane szkoleniowe w celu zidentyfikowania uprzedzeń.

Obecnie opracowywany jest nowy standard IEEE , który ma na celu określenie metodologii, które pomogą twórcom algorytmów wyeliminować kwestie stronniczości i wyartykułować przejrzystość (tj. władzom lub użytkownikom końcowym ) na temat funkcji i możliwych skutków ich algorytmów. Projekt został zatwierdzony w lutym 2017 r. i jest sponsorowany przez Komitet Standardów Inżynierii Oprogramowania i Systemów , komitet powołany przez IEEE Computer Society . Oczekuje się, że projekt standardu zostanie przekazany do głosowania w czerwcu 2019 r.

Przejrzystość i monitorowanie

Wytyczne etyczne dotyczące sztucznej inteligencji wskazują na potrzebę rozliczalności, zalecając podjęcie kroków w celu poprawy interpretacji wyników. Takie rozwiązania obejmują uwzględnienie „prawa do zrozumienia” w algorytmach uczenia maszynowego oraz sprzeciwianie się wdrażaniu uczenia maszynowego w sytuacjach, w których decyzji nie można wyjaśnić lub zweryfikować. W tym celu w organizacjach takich jak DARPA trwa już ruch na rzecz „ wytłumaczalnej sztucznej inteligencji ” z powodów, które wykraczają poza remedium na uprzedzenia. Na przykład Price Waterhouse Coopers sugeruje również, że monitorowanie wyników oznacza projektowanie systemów w taki sposób, aby zapewnić, że pojedyncze elementy systemu można odizolować i wyłączyć, jeśli wyniki przekrzywią.

Wstępne podejście do przejrzystości obejmowało udostępnianie algorytmów na zasadach open-sourcing . Kod oprogramowania można przeglądać i proponować ulepszenia za pośrednictwem urządzeń do hostingu kodu źródłowego . Jednak takie podejście niekoniecznie przynosi zamierzone efekty. Firmy i organizacje mogą udostępniać całą możliwą dokumentację i kodeks, ale nie zapewnia to przejrzystości, jeśli odbiorcy nie rozumieją podanych informacji. Dlatego warto zbadać rolę zainteresowanych odbiorców krytycznych w odniesieniu do przejrzystości. Algorytmy nie mogą być pociągane do odpowiedzialności bez krytycznej publiczności.

Prawo do zadośćuczynienia

Z perspektywy regulacyjnej Deklaracja z Toronto wzywa do zastosowania ram praw człowieka do szkód spowodowanych przez stronniczość algorytmiczną. Obejmuje to legislację oczekiwań dotyczących należytej staranności w imieniu projektantów tych algorytmów oraz tworzenie odpowiedzialności, gdy podmioty prywatne nie chronią interesu publicznego, zwracając uwagę, że takie prawa mogą być przesłonięte przez złożoność określania odpowiedzialności w sieci złożonych, przeplatających się procesów. Inni proponują potrzebę jasnych mechanizmów ubezpieczenia od odpowiedzialności.

Różnorodność i integracja

Wśród obaw, że projektowanie systemów AI jest przede wszystkim domeną białych inżynierów płci męskiej, wielu uczonych sugeruje, że stronniczość algorytmiczną można zminimalizować poprzez rozszerzenie zakresu osób projektujących systemy AI. Na przykład tylko 12% inżynierów zajmujących się uczeniem maszynowym to kobiety, a czarni liderzy AI wskazują na „kryzys różnorodności” w tej dziedzinie. Grupy takie jak Black in AI i Queer in AI próbują tworzyć bardziej inkluzywne przestrzenie w społeczności AI i działają przeciwko często szkodliwym pragnieniom korporacji, które kontrolują trajektorię badań nad sztuczną inteligencją. Krytyka prostych działań na rzecz inkluzywności sugeruje, że programy różnorodności nie mogą zajmować się nakładającymi się formami nierówności i wzywają do bardziej przemyślanego zastosowania intersekcjonalności w projektowaniu algorytmów. Naukowcy z University of Cambridge argumentowali, że zajmowanie się różnorodnością rasową jest utrudnione przez „biel” kultury sztucznej inteligencji.

Rozporządzenie

Europa

Ogólne rozporządzenie o ochronie danych (PKBR), przy czym Unia Europejska reżim zmieniony ochrony danych, zgodnie z którym został wdrożony w 2018 roku, adresy «Zautomatyzowane indywidualnych decyzyjne, w tym profilowania», «wyłącznie» zautomatyzowane decyzje w artykule 22. Przepisy te zakazują, od których „znaczący” lub „prawny” skutek dla osoby fizycznej, chyba że jest to wyraźnie upoważnione na podstawie zgody, umowy lub prawa państwa członkowskiego . Tam, gdzie są dozwolone, muszą istnieć zabezpieczenia, takie jak prawo do „ człowieka w pętli” oraz niewiążące prawo do wyjaśnienia podjętych decyzji. Chociaż przepisy te są powszechnie uważane za nowe, niemal identyczne przepisy istnieją w całej Europie od 1995 r. w art. 15 dyrektywy o ochronie danych . Pierwotne zasady automatycznego podejmowania decyzji i zabezpieczenia, które można znaleźć w prawie francuskim od końca lat siedemdziesiątych.

RODO odnosi się do błędu algorytmicznego w systemach profilowania, a także do metod statystycznych, które można usunąć, bezpośrednio w motywie 71, zwracając uwagę, że

administrator powinien stosować odpowiednie procedury matematyczne lub statystyczne do profilowania, wdrażać odpowiednie środki techniczne i organizacyjne, które zapobiegają m.in. dyskryminacyjnym skutkom wobec osób fizycznych ze względu na pochodzenie rasowe lub etniczne, poglądy polityczne, religię lub przekonania, handel członkostwo w związkach zawodowych, stan genetyczny lub zdrowotny lub orientację seksualną, lub które skutkują podjęciem środków mających taki skutek.

Podobnie jak w przypadku niewiążącego prawa do wyjaśnienia w motywie 71, problemem jest niewiążący charakter motywów . Chociaż został on potraktowany jako wymóg przez Grupę Roboczą Art. 29, która doradzała przy wdrażaniu prawa o ochronie danych, jego praktyczne wymiary są niejasne. Argumentowano, że oceny skutków dla ochrony danych dotyczące profilowania danych wysokiego ryzyka (obok innych środków zapobiegawczych w ramach ochrony danych) mogą być lepszym sposobem rozwiązania problemów dyskryminacji algorytmicznej, ponieważ ograniczają działania osób wdrażających algorytmy, a nie wymaganie od konsumentów składania reklamacji lub żądania zmian.

Stany Zjednoczone

Stany Zjednoczone nie mają ogólnego ustawodawstwa kontrolującego stronniczość algorytmiczną, podchodząc do problemu za pomocą różnych przepisów stanowych i federalnych, które mogą się różnić w zależności od branży, sektora i sposobu użycia algorytmu. Wiele zasad jest egzekwowanych samodzielnie lub kontrolowanych przez Federalną Komisję Handlu . W 2016 r. administracja Obamy opublikowała Narodowy Plan Strategiczny Badań i Rozwoju Sztucznej Inteligencji , który miał na celu skierowanie decydentów do krytycznej oceny algorytmów. Zalecił naukowcom, aby „zaprojektowali te systemy tak, aby ich działania i podejmowanie decyzji były przejrzyste i łatwe do interpretacji przez ludzi, a tym samym mogły być badane pod kątem wszelkich błędów, które mogą zawierać, a nie tylko uczenia się i powtarzania tych błędów”. Raport, mający jedynie charakter informacyjny, nie stworzył precedensu prawnego.

W 2017 r. Nowy Jork uchwalił pierwszą ustawę o odpowiedzialności algorytmicznej w Stanach Zjednoczonych. Ustawa, która weszła w życie 1 stycznia 2018 r., wymagała „stworzenia grupy zadaniowej, która przedstawiałaby zalecenia dotyczące tego, w jaki sposób informacje o zautomatyzowanych systemach decyzyjnych agencji mogą być udostępniane opinii publicznej oraz w jaki sposób agencje mogą reagować na przypadki, w których ludzie są krzywdzeni przez zautomatyzowane systemy decyzyjne agencji." Grupa zadaniowa jest zobowiązana do przedstawienia ustaleń i zaleceń dotyczących dalszych działań regulacyjnych w 2019 r.

Indie

W dniu 31 lipca 2018 r. przedstawiono projekt ustawy o danych osobowych. Projekt proponuje standardy przechowywania, przetwarzania i przesyłania danych. Chociaż nie używa terminu „algorytm”, zawiera przepisy dotyczące „szkody wynikającej z jakiegokolwiek przetwarzania lub wszelkiego rodzaju przetwarzania podjętego przez powiernika”. Definiuje „odmowę lub wycofanie usługi, korzyści lub dobra wynikające z decyzji oceniającej dotyczące podmiotu odpowiedzialnego za dane” lub „wszelkie dyskryminujące traktowanie” jako źródło szkody, która może wyniknąć z niewłaściwego wykorzystania danych. Wprowadza również specjalne przepisy dla osób o „statusie interpłciowym”.

Zobacz też

Dalsza lektura

  • Baer, ​​Tobiasz (2019). Zrozum, zarządzaj i zapobiegaj odchyleniom algorytmicznym: przewodnik dla użytkowników biznesowych i naukowców zajmujących się danymi . Nowy Jork: Apress. Numer ISBN 9781484248843.
  • Szlachetna, Safiya Umoja (2018). Algorytmy opresji: jak wyszukiwarki wzmacniają rasizm . Nowy Jork: New York University Press. Numer ISBN 9781479837243.
  • Uczciwość (uczenie maszynowe)

Bibliografia