Mądrość tłumu - Wisdom of the crowd

Mądrość tłumu jest zbiorowe opinią grupy osób, a nie, że z jednego eksperta. Proces ten, choć nie jest nowy w epoce informacyjnej , został umieszczony w centrum uwagi przez serwisy społecznościowe, takie jak Quora , Stack Exchange , Wikipedia , Yahoo! Odpowiedzi i inne zasoby internetowe, które opierają się na zbiorowej ludzkiej wiedzy. Wyjaśnieniem tego zjawiska jest to, że istnieje idiosynkratyczny szum związany z każdym indywidualnym osądem, a uwzględnienie średniej z dużej liczby odpowiedzi pozwoli w pewnym stopniu zniwelować efekt tego szumu.

Proces przed ławą przysięgłych może być rozumiany jako przynajmniej częściowo opierający się na mądrości tłumu, w porównaniu do procesu sądowego, który opiera się na jednym lub kilku ekspertach. W polityce czasami odbywa się sortowanie jako przykład tego, jak wyglądałaby mądrość tłumu. Podejmowanie decyzji byłoby podejmowane przez zróżnicowaną grupę, a nie przez dość jednorodną grupę polityczną lub partię. Badania w kognitywistyce miały na celu modelowanie związku między mądrością efektów tłumu a indywidualnym poznaniem.

Stwierdzono, że zagregowane odpowiedzi dużej grupy na pytania dotyczące szacowania ilościowego, ogólnej wiedzy o świecie i rozumowania przestrzennego są równie dobre, ale często lepsze od odpowiedzi udzielonej przez którąkolwiek z osób w grupie.

Przykłady

Arystoteles jest uznawany za pierwszą osobę, która napisała o „mądrości tłumu” w swoim dziele „ Polityka” . Według Arystotelesa „możliwe jest, że liczni, choć nie indywidualnie dobrzy ludzie, ale kiedy się spotykają, mogą być lepsi, nie indywidualnie, ale zbiorowo, niż ci, którzy są tacy, tak jak publiczne obiady, w których wielu uczestniczy, są lepsze niż tamci. dostarczane na koszt jednego człowieka”.

"Sir Francis Galton" autorstwa Charlesa Wellingtona Furse , przekazany National Portrait Gallery w Londynie w 1954 r.

Klasyczne odkrycie mądrości tłumu obejmuje estymację punktową ciągłej wielkości. Na targach wiejskich w Plymouth w 1906 roku 800 osób wzięło udział w konkursie na oszacowanie wagi zabitego i ubranego wołu. Statystyk Francis Galton zaobserwował, że średnia wartość 1207 funtów była dokładna w granicach 1% prawdziwej wagi 1198 funtów. Przyczyniło się to do wglądu w kognitywistykę, że indywidualne osądy tłumu mogą być modelowane jako rozkład prawdopodobieństwa odpowiedzi z medianą wyśrodkowaną w pobliżu prawdziwej wartości szacowanej wielkości.

W ostatnich latach zjawisko „mądrości tłumu” zostało wykorzystane w strategii biznesowej i przestrzeniach reklamowych. Firmy takie jak Napkin Labs zbierają opinie konsumentów i wrażenia dotyczące marki dla klientów. Tymczasem firmy takie jak Trada przywołują tłumy do projektowania reklam w oparciu o wymagania klientów.

Przeważają przykłady inne niż ludzkie. Na przykład złoty połysk to ryba, która preferuje zacienione obszary. Pojedynczemu lśniącemu bardzo trudno jest znaleźć zacienione obszary w zbiorniku wodnym, podczas gdy duża grupa jest znacznie bardziej skuteczna w znajdowaniu cienia.

Problemy i modelowanie w wyższych wymiarach

Chociaż klasyczne odkrycia „mądrości tłumu” koncentrują się na oszacowaniach punktowych pojedynczych ciągłych wielkości, zjawisko to skaluje się również do problemów wyższego wymiaru, które nie nadają się do metod agregacji, takich jak przyjmowanie średniej. W tym celu opracowano bardziej złożone modele. Oto kilka przykładów problemów wyższego wymiaru, które wykazują efekt mądrości tłumu:

  • Problemy kombinatoryczne, takie jak minimalne przęsła i problem komiwojażera , w których uczestnicy muszą znaleźć najkrótszą drogę między szeregiem punktów. Modele tych problemów albo rozbijają problem na części wspólne ( metoda agregacji lokalnej dekompozycji ) albo znajdują rozwiązania, które są najbardziej podobne do indywidualnych rozwiązań ludzkich ( metoda agregacji globalnego podobieństwa ).
  • Porządkowanie problemów, takich jak porządek prezydentów USA lub miast świata według liczby ludności. Użytecznym podejściem w tej sytuacji jest modelowanie Thurstonowskie , w którym każdy uczestnik ma dostęp do uporządkowania prawdy podstawowej, ale z różnym stopniem szumu stochastycznego , co prowadzi do rozbieżności w ostatecznym uporządkowaniu nadanym przez różne osoby.
  • Problemy wielorękich bandytów , w których uczestnicy wybierają z zestawu alternatyw ze stałymi, ale nieznanymi stawkami nagród w celu maksymalizacji zwrotu po wielu próbach. Aby dostosować mieszankę procesów decyzyjnych i indywidualnych różnic w prawdopodobieństwie wygrania i pozostania przy danej alternatywie w porównaniu do przegranej i przejścia do innej alternatywy, zastosowano hierarchiczne modele bayesowskie, które zawierają parametry dla poszczególnych osób wylosowane z rozkładów Gaussa

Zaskakująco popularny

W ramach dalszych badań nad sposobami poprawy wyników naukowcy z Sloan Neuroeconomics Lab w MIT we współpracy z Princeton University opracowali nową technikę zwaną „ zaskakująco popularną ”. W przypadku danego pytania ludzie są proszeni o udzielenie dwóch odpowiedzi: Jaka ich zdaniem jest prawidłowa odpowiedź i jaka ich zdaniem będzie popularna opinia. Uśredniona różnica między nimi wskazuje na poprawną odpowiedź. Stwierdzono, że „niespodziewanie popularny” algorytm redukuje błędy o 21,3 proc. w porównaniu do głosowania zwykłą większością io 24,2 proc. głosy ważone zaufaniem, gdzie używa się tylko odpowiedzi o najwyższej średniej.

Definicja tłumu

W kontekście mądrości tłumu termin „tłum” nabiera szerokiego znaczenia. Jedna z definicji charakteryzuje tłum jako grupę ludzi zgromadzoną w otwartym wezwaniu do udziału. Chociaż tłumy są często wykorzystywane w aplikacjach online, można je również wykorzystywać w kontekstach offline. W niektórych przypadkach członkowie tłumu mogą otrzymać zachęty pieniężne za uczestnictwo. Niektóre zastosowania „mądrości tłumu”, takie jak obowiązek ławy przysięgłych w Stanach Zjednoczonych, wymagają udziału tłumu.

Analogi z poznaniem indywidualnym: „tłum wewnątrz”

Spostrzeżenie, że odpowiedzi tłumu na zadanie szacowania można modelować jako próbkę z rozkładu prawdopodobieństwa, zachęca do porównań z indywidualnym poznaniem. W szczególności możliwe jest, że indywidualne poznanie jest probabilistyczne w tym sensie, że indywidualne szacunki są wyciągane z „wewnętrznego rozkładu prawdopodobieństwa”. W takim przypadku dwa lub więcej oszacowań tej samej wielkości od tej samej osoby powinno uśredniać się do wartości bliższej prawdzie podstawowej niż którykolwiek z indywidualnych ocen, ponieważ efekt szumu statystycznego w każdym z tych ocen jest zmniejszony. To oczywiście opiera się na założeniu, że szum związany z każdym osądem jest (przynajmniej w pewnym stopniu) statystycznie niezależny . Tłum musi więc być niezależny, ale też zróżnicowany, aby umożliwić różnorodne odpowiedzi. Odpowiedzi na końcach spektrum znoszą się wzajemnie, pozwalając na zajęcie miejsca mądrości zjawiska tłumu. Innym zastrzeżeniem jest to, że indywidualne oceny prawdopodobieństwa są często nastawione na wartości ekstremalne (np. 0 lub 1). Zatem każdy korzystny wpływ wielu ocen tej samej osoby będzie prawdopodobnie ograniczony do próbek z bezstronnej dystrybucji.

Vul i Pashler (2008) poprosili uczestników o oszacowanie punktowe ciągłych wielkości związanych z ogólną wiedzą o świecie, takie jak „Jaki procent światowych lotnisk znajduje się w Stanach Zjednoczonych?” Bez wcześniejszego powiadomienia o procedurze połowa uczestników została natychmiast poproszona o drugie, inne przypuszczenie w odpowiedzi na to samo pytanie, a drugą połowę poproszono o zrobienie tego trzy tygodnie później. Średnia z dwóch domysłów uczestnika była bardziej dokładna niż domysły indywidualne. Co więcej, średnie domysłów dokonanych w warunkach trzytygodniowego opóźnienia były dokładniejsze niż domysły wykonane bezpośrednio po sobie. Jednym z wyjaśnień tego efektu jest to, że domysły w warunkach bezpośrednich były mniej niezależne od siebie ( efekt zakotwiczenia ), a zatem podlegały (niektóre) temu samemu rodzajowi szumu. Ogólnie rzecz biorąc, wyniki te sugerują, że indywidualne poznanie może rzeczywiście podlegać wewnętrznemu rozkładowi prawdopodobieństwa charakteryzującemu się szumem stochastycznym, zamiast konsekwentnie dawać najlepszą odpowiedź w oparciu o całą wiedzę, jaką posiada dana osoba. Wyniki te zostały w większości potwierdzone w replikacji wstępnie zarejestrowanej o dużej mocy. Jedynym rezultatem, który nie został w pełni powtórzony, było to, że opóźnienie w drugim domyśle generuje lepsze oszacowanie.

Hourihan i Benjamin (2010) przetestowali hipotezę, że poprawa szacunków zaobserwowana przez Vula i Pashlera w stanie opóźnionej odpowiedzi była wynikiem zwiększonej niezależności szacunków. Aby to zrobić, Hourihan i Benjamin wykorzystali różnice w rozpiętości pamięci wśród swoich uczestników. Na poparcie stwierdzili, że uśrednianie powtarzanych oszacowań osób z mniejszymi okresami pamięci wykazało większą poprawę szacunków niż uśrednianie powtarzanych oszacowań osób z większymi okresami pamięci.

Rauhut i Lorenz (2011) rozszerzyli to badanie, ponownie prosząc uczestników o oszacowanie ciągłych wielkości związanych z wiedzą ze świata rzeczywistego – jednak w tym przypadku uczestników poinformowano, że dokonają pięciu kolejnych szacunków. Takie podejście pozwoliło naukowcom określić, po pierwsze, ile razy trzeba zadać sobie pytanie, aby dopasować trafność pytania innych, a następnie, w jakim tempie oszacowania dokonane przez siebie poprawiają szacunki w porównaniu z pytaniem innych. Autorzy doszli do wniosku, że zadawanie sobie nieskończonej liczby razy nie przekracza dokładności zadania tylko jednej innej osobie. Ogólnie rzecz biorąc, znaleźli niewielkie poparcie dla tak zwanego „rozkładu mentalnego”, z którego jednostki czerpią swoje szacunki; w rzeczywistości odkryli, że w niektórych przypadkach wielokrotne zadawanie sobie pytań faktycznie zmniejsza dokładność. Ostatecznie argumentują, że wyniki Vula i Pashlera (2008) przeceniają mądrość „wewnętrznego tłumu” – ponieważ ich wyniki pokazują, że zadawanie sobie pytań ponad trzykrotnie w rzeczywistości zmniejsza dokładność do poziomów niższych niż zgłoszone przez Vula i Pashlera (którzy tylko poprosił uczestników o dokonanie dwóch szacunków).

Müller-Trede (2011) próbował zbadać rodzaje pytań, w których wykorzystanie „tłumu wewnątrz” jest najskuteczniejsze. Odkrył, że chociaż przyrosty dokładności były mniejsze niż można by się spodziewać po uśrednieniu własnych szacunków z inną osobą, powtarzane osądy prowadzą do zwiększenia dokładności zarówno w przypadku pytań dotyczących szacowania roku (np. kiedy wynaleziono termometr?), jak i pytań o szacunkowe wartości procentowe (np. , jaki procent internautów łączy się z Chin?). Ogólne pytania liczbowe (np. jaka jest prędkość dźwięku w kilometrach na godzinę?) nie wykazały poprawy przy powtarzanych ocenach, natomiast uśrednienie indywidualnych ocen z ocenami losowymi innych poprawiło dokładność. Jest to, argumentuje Müller-Trede, wynik ograniczeń wynikających z pytań dotyczących roku i wartości procentowych.

Van Dolder i Van den Assem (2018) badali „tłum w środku”, korzystając z dużej bazy danych z trzech konkursów szacunkowych organizowanych przez Holland Casino. W przypadku każdego z tych konkursów okazało się, że agregacja wewnątrzosobowa rzeczywiście poprawia dokładność oszacowań. Co więcej, potwierdzają również, że metoda ta działa lepiej, jeśli między kolejnymi orzeczeniami występuje opóźnienie czasowe. Jednak nawet jeśli występuje znaczne opóźnienie między szacunkami, korzyść blednie w porównaniu z agregacją między osobami: średnia dużej liczby ocen tej samej osoby jest niewiele lepsza niż średnia dwóch ocen od różnych osób.

Bootstrapping dialektyczny: poprawa szacunków „tłumu wewnątrz”

Herzog i Hertwig (2009) próbowali ulepszyć „mądrość wielu w jednym umyśle” (tj. „tłum wewnątrz”) prosząc uczestników o użycie dialektycznego ładowania początkowego. Bootstrap dialektyczny polega na zastosowaniu dialektyki (uzasadnionej dyskusji, która odbywa się między dwiema lub więcej stronami o przeciwnych poglądach, w celu ustalenia najlepszej odpowiedzi) i bootstrapowania (posuwania się naprzód bez pomocy sił zewnętrznych). Założyli, że ludzie powinni być w stanie dokonać większych ulepszeń w stosunku do swoich pierwotnych szacunków, opierając drugie oszacowanie na antytetycznych informacjach. Dlatego te drugie oszacowania, oparte na innych założeniach i wiedzy niż te wykorzystane do wygenerowania pierwszego oszacowania, miałyby również inny błąd (zarówno systematyczny, jak i losowy ) niż pierwsze oszacowanie – zwiększając dokładność średniej oceny. Z analitycznego punktu widzenia dialektyczne ładowanie początkowe powinno zwiększać dokładność, o ile ocena dialektyczna nie jest zbyt odległa, a błędy pierwszego i dialektycznego oszacowania są różne. Aby to przetestować, Herzog i Hertwig poprosili uczestników o wykonanie serii szacunków dat dotyczących wydarzeń historycznych (np. kiedy odkryto elektryczność), nie wiedząc, że zostaną poproszeni o przedstawienie drugiej oceny. Następnie połowę uczestników poproszono po prostu o dokonanie drugiej oceny. Drugą połowę poproszono o zastosowanie strategii „rozważ przeciwieństwo” w celu dokonania szacunków dialektycznych (przy użyciu ich wstępnych szacunków jako punktu odniesienia). W szczególności, uczestników poproszono o wyobrażenie sobie, że ich początkowe szacunki były błędne, rozważenie, jakie informacje mogły być błędne, co sugerowałaby ta alternatywna informacja, gdyby to spowodowało, że ich oszacowanie byłoby zawyżone lub niedoszacowane, i wreszcie, w oparciu o tę perspektywę, ich nowe oszacowanie byłoby. Wyniki tego badania ujawniły, że chociaż dialektyczne ładowanie początkowe nie przewyższyło mądrości tłumu (uśredniając pierwsze szacunki każdego uczestnika z szacunkami losowego innego uczestnika), dało lepsze szacunki niż po prostu proszenie osób o dokonanie dwóch szacunków.

Hirt i Markman (1995) stwierdzili, że uczestnicy nie muszą ograniczać się do strategii rozważania przeciwieństw w celu poprawy osądów. Badacze poprosili uczestników o rozważenie alternatywy – zoperacjonalizowanej jako dowolna prawdopodobna alternatywa (zamiast skupiania się na „przeciwnej” alternatywie) – stwierdzając, że po prostu rozważenie alternatywy poprawiło osądy.

Nie wszystkie badania wykazały poparcie dla „tłumu wewnątrz” poprawiających osądy. Ariely i koledzy poprosili uczestników o udzielenie odpowiedzi na podstawie ich odpowiedzi na pytania prawda-fałsz oraz ich zaufania do tych odpowiedzi. Odkryli, że chociaż uśrednianie szacunków osądów między osobami znacznie poprawiło oszacowania, uśrednianie oszacowań powtarzanych osądów dokonanych przez te same osoby nie poprawiło znacząco oszacowań.

Problemy

Badania nad mądrością tłumu rutynowo przypisują wyższość średnich tłumu nad indywidualnymi osądami eliminowaniu indywidualnego szumu, co jest wyjaśnieniem, które zakłada niezależność poszczególnych osądów od siebie. W ten sposób tłum ma tendencję do podejmowania najlepszych decyzji, jeśli składa się z różnych opinii i ideologii.

Uśrednianie może wyeliminować przypadkowe błędy, które wpływają na odpowiedź każdej osoby w inny sposób, ale nie błędy systematyczne, które w ten sam sposób wpływają na opinie całego tłumu. Na przykład nie oczekuje się, że technika mądrości tłumu zrekompensuje błędy poznawcze .

Scott E. Page wprowadził twierdzenie o przewidywaniu różnorodności: „Błąd kwadratowy przewidywania zbiorowego równa się średni kwadrat błędu minus zróżnicowanie predykcyjne”. Dlatego też, gdy zróżnicowanie w grupie jest duże, błąd tłumu jest niewielki.

Miller i Stevyers zmniejszyli niezależność indywidualnych odpowiedzi w eksperymencie mądrości tłumu, umożliwiając ograniczoną komunikację między uczestnikami. Uczestników poproszono o udzielenie odpowiedzi na pytania porządkowe na pytania dotyczące wiedzy ogólnej, takie jak kolejność prezydentów USA. W przypadku połowy pytań każdy uczestnik zaczynał od zamówienia złożonego przez innego uczestnika (i o tym był zaalarmowany), a dla drugiej połowy zaczynał od przypadkowego zamówienia i w obu przypadkach był proszony o ich przestawienie (w razie potrzeby) do właściwej kolejności. Odpowiedzi, w których uczestnicy rozpoczęli od rankingu innego uczestnika, były średnio bardziej trafne niż te z losowego warunku początkowego. Miller i Steyvers dochodzą do wniosku, że za to zjawisko odpowiada różna wiedza na poziomie poszczególnych elementów wśród uczestników oraz że uczestnicy zintegrowali i poszerzyli wiedzę poprzednich uczestników o własną wiedzę.

Tłumy zwykle działają najlepiej, gdy istnieje prawidłowa odpowiedź na zadane pytanie, na przykład pytanie dotyczące geografii lub matematyki. Gdy nie ma precyzyjnej odpowiedzi, tłumy mogą dojść do arbitralnych wniosków.

Mądrość efektu tłumu jest łatwo podważona. Wpływ społeczny może spowodować, że średnia odpowiedzi tłumu będzie szalenie niedokładna, podczas gdy średnia geometryczna i mediana są znacznie bardziej solidne. (Opiera się to na niepewności i zaufaniu, ergo doświadczenie jednostki ocenia się jako znane. tj. średnia 10 uczonych osób na dany temat będzie się różnić od średniej 10 osób, które nic nie wiedzą na dany temat, nawet w sytuacji, gdy istnieje znana prawda i niewłaściwe jest po prostu mieszanie całkowitej populacji opinii, zakładając, że wszystkie są równe, ponieważ błędnie osłabi to wpływ sygnału od uczonych osób na hałas niewykształconych).

Eksperymenty przeprowadzone przez Szwajcarski Federalny Instytut Technologii wykazały, że gdy grupa ludzi została poproszona o wspólną odpowiedź na pytanie, próbowali dojść do konsensusu, który często powodowałby zmniejszenie dokładności odpowiedzi. czyli jaka jest długość granicy między dwoma krajami? Jedną z sugestii przeciwdziałania temu efektowi jest zapewnienie, że grupa składa się z populacji o różnym pochodzeniu.

Badania przeprowadzone w ramach Good Judgment Project wykazały, że zespoły zorganizowane w sondażach predykcyjnych mogą uniknąć przedwczesnego konsensusu i generować zagregowane szacunki prawdopodobieństwa, które są dokładniejsze niż te wytwarzane na rynkach predykcyjnych.

Zobacz też

Bibliografia