Wyszukiwarka - Search engine
Wyszukiwarka to system oprogramowania , które jest przeznaczone do przeprowadzania wyszukiwań internetowych . Przeszukują sieć WWW w sposób systematyczny w poszukiwaniu określonych informacji określonych w zapytaniu wyszukiwania tekstowego . Te wyniki wyszukiwania są zwykle przedstawiane w linii wyników, często określane jako wynikach wyszukiwania stron (Google) Informacje mogą być mieszanką linki do stron internetowych , zdjęć, wideo, infografiki , artykułów, prac naukowych i innych rodzajów pliki. Niektóre wyszukiwarki eksplorują również dane dostępne w bazach danych lub otwartych katalogach. W przeciwieństwie do katalogów internetowych , które są utrzymywane tylko przez redaktorów, wyszukiwarki również utrzymać w czasie rzeczywistym informacje o prowadzenie algorytmu na robota internetowej . Treści internetowe, których nie można przeszukiwać za pomocą wyszukiwarki internetowej, są ogólnie określane jako głęboka sieć .
Historia
Rok | Silnik | Aktualny stan |
---|---|---|
1993 | Katalog W3 | Aktywny |
Aliweb | Aktywny | |
Stacja skokowa | Nieaktywny | |
Robak WWW | Nieaktywny | |
1994 | Robot indeksujący | Aktywny |
Go.com | Nieaktywny, przekierowuje do Disney | |
Lycos | Aktywny | |
Wyszukiwanie informacji | Nieaktywny, przekierowuje do Disney | |
1995 | Wieśniak! Szukaj | Aktywna, początkowo funkcja wyszukiwania Yahoo! Informator |
Daum | Aktywny | |
Magellana | Nieaktywny | |
Podniecać | Aktywny | |
SAPO | Aktywny | |
MetaCrawler | Aktywny | |
AltaVista | Nieaktywny, przejęty przez Yahoo! w 2003 r., od 2013 r. przekierowuje do Yahoo! | |
1996 | RankDex | Nieaktywny, włączony do Baidu w 2000 roku |
Dogpil | Aktywny, agregator | |
Inktomi | Nieaktywny, przejęty przez Yahoo! | |
HotBot | Aktywny | |
Zapytaj Jeeves | Aktywny (przemianowana nazwa ask.com) | |
1997 | AOL NetFind | Aktywny (przemianowany na AOL Search od 1999 r.) |
Północne światło | Nieaktywny | |
Yandex | Aktywny | |
1998 | Aktywny | |
Ixquick | Aktywny jako Startpage.com | |
Wyszukiwanie MSN | Aktywny jako Bing | |
empas | Nieaktywny (połączony z NATE) | |
1999 | AlltheWeb | Nieaktywny (adres URL przekierowany do Yahoo!) |
GenieKnows | Aktywny, rebrandowany Yellowee (przekierowanie na justlocalbusiness.com) | |
Naver | Aktywny | |
Teoma | Aktywny (© APN, LLC) | |
2000 | Baidu | Aktywny |
Exalead | Nieaktywny | |
Gigablast | Aktywny | |
2001 | Kartoo | Nieaktywny |
2003 | Info.com | Aktywny |
2004 | A9.pl | Nieaktywny |
Clusty | Aktywny (jako Yippy) | |
Mojeek | Aktywny | |
Sogou | Aktywny | |
2005 | Poszukaj mnie | Nieaktywny |
KidzSearch | Aktywna, wyszukiwarka Google | |
2006 | Tak sobie | Nieaktywny, połączony z Sogou |
Quaero | Nieaktywny | |
Search.com | Aktywny | |
Czacza | Nieaktywny | |
Ask.com | Aktywny | |
Wyszukiwanie na żywo | Aktywny jako Bing, zmieniona nazwa MSN Search | |
2007 | wikiseek | Nieaktywny |
Sproose | Nieaktywny | |
Wyszukiwanie w Wikii | Nieaktywny | |
Blackle.com | Aktywna, wyszukiwarka Google | |
2008 | Zestaw zasilający | Nieaktywny (przekierowania do Bing) |
Pikolator | Nieaktywny | |
Viewzi | Nieaktywny | |
Boogami | Nieaktywny | |
SkokRyba | Nieaktywny | |
Forestle | Nieaktywny (przekierowuje do Ecosia) | |
KaczkaKaczkaGo | Aktywny | |
2009 | Bing | Aktywna, zmieniona marka Live Search |
Yebol | Nieaktywny | |
Mugurdy | Nieaktywny z powodu braku funduszy | |
Skaut (Babka) | Aktywny | |
NATE | Aktywny | |
Ekosia | Aktywny | |
Strona startowa.com | Aktywny, siostrzany silnik Ixquick | |
2010 | Blekko | Nieaktywny, sprzedany IBM |
Cuil | Nieaktywny | |
Yandex (angielski) | Aktywny | |
Parsijoo | Aktywny | |
2011 | YaCy | Aktywny, P2P |
2012 | Wolunia | Nieaktywny |
2013 | Qchant | Aktywny |
2014 | Egerin | Aktywny, Kurdyjski / Sorani |
Szwajcarki | Aktywny | |
Searx | Aktywny | |
2015 | Yooz | Aktywny |
Cliqz | Nieaktywny | |
2016 | Kidd | Aktywna, wyszukiwarka Google |
Przed 1990
System lokalizowania publikowanych informacji, mający na celu przezwyciężenie coraz większych trudności w lokalizowaniu informacji w stale rosnących scentralizowanych indeksach pracy naukowej, został opisany w 1945 roku przez Vannevara Busha , który napisał artykuł w The Atlantic Monthly zatytułowany „ As We May Think ”, w którym wyobrażał sobie biblioteki badań z powiązanymi adnotacjami, podobnie jak nowoczesne hiperłącza . Analiza linków stałaby się ostatecznie kluczowym elementem wyszukiwarek dzięki algorytmom takim jak Hyper Search i PageRank .
Lata 90.: Narodziny wyszukiwarek
Pierwsze wyszukiwarki internetowe poprzedzają debiut sieci w grudniu 1990 r.: wyszukiwanie użytkowników WHOIS sięga 1982 r., a wielosieciowe wyszukiwanie użytkowników Knowbot Information Service zostało po raz pierwszy wdrożone w 1989 r. Pierwsza dobrze udokumentowana wyszukiwarka, która przeszukiwała pliki treści, a mianowicie plików FTP , był Archie , który zadebiutował 10 września 1990 roku.
Przed wrześniem 1993 roku sieć WWW była w całości indeksowana ręcznie. Lista serwerów internetowych została zredagowana przez Tima Bernersa-Lee i utrzymywana na serwerze sieciowym CERN . Jedna migawka listy z 1992 r. pozostała, ale ponieważ coraz więcej serwerów internetowych przechodziło do trybu online, centralna lista nie była już w stanie nadążyć. Na stronie NCSA ogłoszono nowe serwery pod tytułem „Co nowego!”
Pierwszym narzędziem służącym do wyszukiwania treści (w przeciwieństwie do użytkowników) w Internecie był Archie . Nazwa oznacza „archiwum” bez „v”. Została stworzona przez studenta informatyki Alana Emtage na Uniwersytecie McGill w Montrealu, Quebec , Kanada. Program pobrał wykazy katalogów wszystkich plików znajdujących się na publicznych anonimowych witrynach FTP ( File Transfer Protocol ), tworząc przeszukiwalną bazę danych nazw plików; jednak Archie Search Engine nie indeksował zawartości tych witryn, ponieważ ilość danych była tak ograniczona, że można było łatwo przeszukiwać je ręcznie.
Powstanie Gophera (stworzonego w 1991 roku przez Marka McCahilla na University of Minnesota ) doprowadziło do powstania dwóch nowych programów wyszukiwania, Veronica i Jughead . Podobnie jak Archie przeszukiwali nazwy plików i tytuły przechowywane w systemach indeksów Gopher. Veronica ( V ery PL ASY R odent- O riented N i szerokości I ndex do C omputerized A rchives), pod warunkiem, wyszukując większości tytułów menu Gophera w wydruki Gopher. Jughead ( J onzy użytkownika U niversal G Opher H ierarchy e xcavation ND D WYŚWIETLACZ) jest narzędziem, w celu uzyskania informacji menu z serwerami specyficzne Gopher. Podczas gdy nazwa wyszukiwarki „ Wyszukiwarka Archie ” nie była odniesieniem do serii komiksów Archie , „ Veronica ” i „ Jughead ” są postaciami z serii, nawiązując w ten sposób do swojego poprzednika.
Latem 1993 r. nie istniała żadna wyszukiwarka sieci, chociaż wiele specjalistycznych katalogów było prowadzonych ręcznie. Oscar Nierstrasz z Uniwersytetu Genewskiego napisał serię skryptów Perla, które okresowo odzwierciedlały te strony i przepisywały je do standardowego formatu. Stanowiło to podstawę dla W3Catalog , pierwszej prymitywnej wyszukiwarki internetowej, wydanej 2 września 1993 roku.
W czerwcu 1993 roku Matthew Gray, pracujący wówczas w MIT , wyprodukował prawdopodobnie pierwszego robota internetowego , opartego na Perlu World Wide Web Wanderer , i użył go do wygenerowania indeksu o nazwie „Wandex”. Celem Wędrowca był pomiar wielkości sieci World Wide Web, które to miało dopiero pod koniec 1995 roku Internetowej sekund wyszukiwarka Aliweb ukazał się w listopadzie 1993 roku Aliweb nie użyć robota internetowego , lecz zależało na powiadomienia o stronie administratorzy istnienia w każdej witrynie pliku indeksu w określonym formacie.
JumpStation (utworzony w grudniu 1993 r. przez Jonathona Fletchera ) używał robota internetowego do wyszukiwania stron internetowych i budowania indeksu, a także używał formularza internetowego jako interfejsu do programu zapytań. Było to zatem pierwsze narzędzie do wyszukiwania zasobów WWW , które łączyło trzy podstawowe cechy wyszukiwarki internetowej (przeszukiwanie, indeksowanie i wyszukiwanie), jak opisano poniżej. Ze względu na ograniczone zasoby dostępne na platformie, na której działał, jej indeksowanie, a tym samym wyszukiwanie, ograniczało się do tytułów i nagłówków znalezionych na stronach internetowych napotkanych przez robota indeksującego.
Jedną z pierwszych wyszukiwarek opartych na robotach typu „cały tekst” był WebCrawler , który pojawił się w 1994 roku. W przeciwieństwie do swoich poprzedników umożliwiał użytkownikom wyszukiwanie dowolnego słowa na dowolnej stronie internetowej, co od tego czasu stało się standardem dla wszystkich głównych wyszukiwarek. Była to również wyszukiwarka, która była szeroko znana opinii publicznej. Również w 1994 r. uruchomiono Lycos (który powstał na Uniwersytecie Carnegie Mellon ) i stał się głównym przedsięwzięciem komercyjnym.
Pierwszą popularną wyszukiwarką w sieci była Yahoo! Szukaj . Pierwszy produkt firmy Yahoo! , założony przez Jerry'ego Yanga i Davida Filo w styczniu 1994 roku, był katalogiem internetowym o nazwie Yahoo! Katalog . W 1995 roku dodano funkcję wyszukiwania, umożliwiającą użytkownikom przeszukiwanie Yahoo! Informator! Stał się jednym z najpopularniejszych sposobów znajdowania interesujących stron internetowych, ale jego funkcja wyszukiwania działała na podstawie katalogu stron internetowych, a nie pełnotekstowych kopii stron internetowych.
Wkrótce pojawiło się wiele wyszukiwarek, które rywalizowały o popularność. Należą do nich Magellan , Excite , Infoseek , Inktomi , Northern Light i AltaVista . Osoby poszukujące informacji mogą również przeglądać katalog zamiast przeprowadzać wyszukiwanie oparte na słowach kluczowych.
W 1996 roku Robin Li opracował algorytm oceny witryn RankDex do rankingu stron wyników wyszukiwania i otrzymał patent USA na tę technologię. Była to pierwsza wyszukiwarka, która wykorzystywała hiperłącza do mierzenia jakości indeksowanych stron internetowych, poprzedzając bardzo podobny patent na algorytm zgłoszony przez Google dwa lata później w 1998 roku. Larry Page odniósł się do pracy Li w niektórych swoich patentach w USA dla PageRank. Li później wykorzystał swoją technologię Rankdex w wyszukiwarce Baidu , która została założona przez Robina Li w Chinach i uruchomiona w 2000 roku.
W 1996 r. firma Netscape chciała dać jednej wyszukiwarce ekskluzywną ofertę jako polecana wyszukiwarka w przeglądarce internetowej Netscape. Zainteresowanie było tak duże, że zamiast tego Netscape zawarł umowę z pięcioma głównymi wyszukiwarkami: za 5 milionów dolarów rocznie każda wyszukiwarka byłaby rotowana na stronie wyszukiwarki Netscape. Pięć silników to Yahoo!, Magellan, Lycos, Infoseek i Excite.
Google przyjął pomysł sprzedaży wyszukiwanych haseł w 1998 roku od małej firmy zajmującej się wyszukiwarkami o nazwie goto.com . Ten ruch miał znaczący wpływ na biznes SE, który z walki stał się jednym z najbardziej dochodowych biznesów w Internecie.
Wyszukiwarki były również znane jako jedne z najjaśniejszych gwiazd internetowego szaleństwa inwestycyjnego, które miało miejsce pod koniec lat 90. XX wieku. Kilka firm w spektakularny sposób weszło na rynek, osiągając rekordowe zyski podczas pierwszych ofert publicznych . Niektórzy usunęli swoją publiczną wyszukiwarkę i sprzedają wersje tylko dla przedsiębiorstw, takie jak Northern Light. Wiele firm zajmujących się wyszukiwarkami zostało złapanych w bańkę internetową , napędzany spekulacjami boom rynkowy, który osiągnął szczyt w 1990 r. i zakończył się w 2000 r.
2000-obecnie: Post bańka dot-com
Około 2000 roku wyszukiwarka Google zyskała na znaczeniu. Firma osiągnęła lepsze wyniki dla wielu wyszukiwań dzięki algorytmowi o nazwie PageRank , jak wyjaśniono w artykule Anatomy of a Search Engine napisanym przez Sergeya Brina i Larry'ego Page'a , późniejszych założycieli Google. Ten iteracyjny algorytm klasyfikuje strony internetowe na podstawie liczby i PageRank innych witryn internetowych i stron, które do nich prowadzą, przy założeniu, że dobre lub pożądane strony są połączone z większą liczbą linków niż inne. Patent Larry'ego Page'a na PageRank przytacza wcześniejszy patent RankDex Robina Li jako wpływ. Google utrzymał również minimalistyczny interfejs swojej wyszukiwarki. W przeciwieństwie do tego, wielu jej konkurentów umieściło wyszukiwarkę w portalu internetowym . W rzeczywistości wyszukiwarka Google stała się tak popularna, że pojawiły się spoof silniki, takie jak Mystery Seeker .
Do 2000 roku Yahoo! świadczył usługi wyszukiwania w oparciu o wyszukiwarkę Inktomi. Wieśniak! nabył Inktomi w 2002 roku, a Overture (który był właścicielem AlltheWeb i AltaVista) w 2003 roku. Yahoo! przeszła na wyszukiwarkę Google do 2004 roku, kiedy uruchomiła własną wyszukiwarkę opartą na połączonych technologiach swoich przejęć.
Microsoft po raz pierwszy uruchomił usługę MSN Search jesienią 1998 roku, korzystając z wyników wyszukiwania z Inktomi. Na początku 1999 roku strona zaczęła wyświetlać wykazy z Looksmart połączone z wynikami z Inktomi. Przez krótki czas w 1999 r. wyszukiwarka MSN korzystała z wyników AltaVista. W 2004 r. firma Microsoft rozpoczęła przejście na własną technologię wyszukiwania, opartą na własnym przeszukiwaczu sieciowym (nazywanym msnbot ).
Nowa wyszukiwarka Microsoftu, Bing , została uruchomiona 1 czerwca 2009 r. 29 lipca 2009 r. Yahoo! a Microsoft sfinalizował umowę, w której Yahoo! Wyszukiwarka byłaby obsługiwana przez technologię Microsoft Bing.
Od 2019 r. aktywne roboty indeksujące wyszukiwarek obejmują roboty Google , Petal , Sogou , Baidu , Bing , Gigablast , Mojeek , DuckDuckGo i Yandex .
Zbliżać się
Wyszukiwarka utrzymuje następujące procesy w czasie zbliżonym do rzeczywistego:
Wyszukiwarki internetowe uzyskują informacje, przeszukując sieć z witryny do witryny. „Pająk” szuka standardowej nazwy pliku robots.txt , zaadresowanej do niego. Plik robots.txt zawiera dyrektywy dla pająków wyszukiwania, informujące, które strony mają indeksować, a które nie. Po sprawdzeniu pliku robots.txt i znalezieniu go lub nie, pająk odsyła pewne informacje z powrotem do indeksowania w zależności od wielu czynników, takich jak tytuły, zawartość strony, JavaScript , kaskadowe arkusze stylów (CSS), nagłówki lub metadane w Metatagi HTML . Po zindeksowaniu określonej liczby stron, ilości zindeksowanych danych lub czasie spędzonym w witrynie pająk przestaje się indeksować i przechodzi dalej. „[N]aden robot indeksujący nie może faktycznie indeksować całej dostępnej sieci. Ze względu na nieskończoną liczbę witryn, pułapki pająków, spam i inne wymogi rzeczywistej sieci roboty indeksujące stosują zasady indeksowania, aby określić, kiedy należy uznać za indeksowanie witryny wystarczające. Niektóre witryny są indeksowane w sposób wyczerpujący, podczas gdy inne są indeksowane tylko częściowo”.
Indeksowanie oznacza kojarzenie słów i innych definiowalnych tokenów znalezionych na stronach internetowych z ich nazwami domen i polami opartymi na HTML . Stowarzyszenia tworzone są w ogólnodostępnej bazie danych, udostępnianej do wyszukiwania w sieci. Zapytanie od użytkownika może składać się z pojedynczego słowa, wielu słów lub zdania. Indeks pomaga w jak najszybszym znalezieniu informacji związanych z zapytaniem. Niektóre techniki indeksowania i buforowania są tajemnicą handlową, podczas gdy indeksowanie sieci to prosty proces systematycznego odwiedzania wszystkich witryn.
Pomiędzy wizytami pająka zbuforowana wersja strony (część lub całość treści potrzebnych do jej renderowania) przechowywana w pamięci roboczej wyszukiwarki jest szybko wysyłana do pytającego. Jeśli wizyta jest spóźniona, wyszukiwarka może zamiast tego działać jako internetowy serwer proxy . W takim przypadku strona może różnić się od zindeksowanych wyszukiwanych haseł. Strona z pamięci podręcznej zachowuje wygląd wersji, której słowa zostały wcześniej zindeksowane, więc wersja strony z pamięci podręcznej może być przydatna dla witryny, gdy rzeczywista strona została utracona, ale ten problem jest również uważany za łagodną formę linkrot .
Zazwyczaj, gdy użytkownik wpisuje zapytanie w wyszukiwarce, jest to kilka słów kluczowych . Indeks ma już nazwy stron zawierających słowa kluczowe, a te są natychmiast uzyskane z indeksu. Prawdziwe obciążenie przetwarzania polega na generowaniu stron internetowych, które są listą wyników wyszukiwania: Każda strona z całej listy musi być ważona zgodnie z informacjami w indeksach. Następnie element najwyższego wyniku wyszukiwania wymaga wyszukania, rekonstrukcji i oznaczenia fragmentów zawierających kontekst dopasowanych słów kluczowych. To tylko część procesu przetwarzania, którego wymaga każda strona z wynikami wyszukiwania, a dalsze strony (u góry) wymagają więcej tego przetwarzania końcowego.
Oprócz prostych wyszukiwań słów kluczowych, wyszukiwarki oferują własne operatory GUI lub komendy oraz parametry wyszukiwania w celu zawężenia wyników wyszukiwania. Zapewniają one niezbędną kontrolę dla użytkownika zaangażowanego w pętlę informacji zwrotnych tworzonych przez użytkowników poprzez filtrowanie i ważenie podczas udoskonalania wyników wyszukiwania, biorąc pod uwagę początkowe strony pierwszych wyników wyszukiwania. Na przykład od 2007 r. wyszukiwarka Google.com umożliwia filtrowanie według daty, klikając „Pokaż narzędzia wyszukiwania” w skrajnej lewej kolumnie początkowej strony wyników wyszukiwania, a następnie wybierając żądany zakres dat. Możliwe jest również ważenie według daty, ponieważ każda strona ma czas modyfikacji. Większość wyszukiwarek obsługuje użycie operatorów logicznych AND, OR i NOT, aby pomóc użytkownikom końcowym doprecyzować zapytanie . Operatory logiczne służą do wyszukiwania dosłownego, które umożliwiają użytkownikowi doprecyzowanie i rozszerzenie warunków wyszukiwania. Wyszukiwarka szuka słów lub fraz dokładnie tak, jak zostały wprowadzone. Niektóre wyszukiwarki udostępniają zaawansowaną funkcję zwaną wyszukiwaniem zbliżeniowym , która pozwala użytkownikom określić odległość między słowami kluczowymi. Istnieje również wyszukiwanie oparte na pojęciach, w którym badanie polega na wykorzystaniu analizy statystycznej na stronach zawierających wyszukiwane słowa lub frazy.
Przydatność wyszukiwarki zależy od trafności zwracanego przez nią zestawu wyników . Chociaż mogą istnieć miliony stron internetowych zawierających określone słowo lub wyrażenie, niektóre strony mogą być bardziej trafne, popularne lub autorytatywne niż inne. Większość wyszukiwarek stosuje metody pozycjonowania wyników, aby najpierw dostarczyć „najlepsze” wyniki. Sposób, w jaki wyszukiwarka decyduje, które strony są najlepiej dopasowane i w jakiej kolejności powinny być wyświetlane wyniki, różni się znacznie w zależności od wyszukiwarki. Metody zmieniają się również z biegiem czasu, wraz ze zmianami w korzystaniu z Internetu i ewolucją nowych technik. Istnieją dwa główne typy wyszukiwarek, które ewoluowały: jeden to system predefiniowanych i uporządkowanych hierarchicznie słów kluczowych, które ludzie obszernie zaprogramowali. Drugi to system, który generuje „ odwrócony indeks ” poprzez analizę znalezionych tekstów. Ta pierwsza forma w znacznie większym stopniu opiera się na samym komputerze, który wykonuje większość pracy.
Większość wyszukiwarek internetowych to przedsięwzięcia komercyjne wspierane przychodami z reklam, a zatem niektóre z nich umożliwiają reklamodawcom umieszczanie ich ofert na wyższych pozycjach w wynikach wyszukiwania za opłatą. Wyszukiwarki, które nie przyjmują pieniędzy za wyniki wyszukiwania, zarabiają, wyświetlając reklamy związane z wyszukiwaniem obok zwykłych wyników wyszukiwania. Wyszukiwarki zarabiają za każdym razem, gdy ktoś kliknie jedną z tych reklam.
Wyszukiwanie lokalne
Wyszukiwanie lokalne to proces, który optymalizuje wysiłki lokalnych firm. Koncentrują się na zmianach, aby upewnić się, że wszystkie wyszukiwania są spójne. To ważne, ponieważ wiele osób na podstawie swoich wyszukiwań określa, dokąd planuje się udać i co kupić.
Według stanu na sierpień 2021 r. Google jest zdecydowanie najczęściej używaną wyszukiwarką na świecie, z udziałem w rynku wynoszącym 92,03%, a innymi najczęściej używanymi wyszukiwarkami na świecie były Bing , Yahoo! , Baidu , Yandex i DuckDuckGo .
Rosja i Azja Wschodnia
W Rosji Yandex ma 61,9% udziału w rynku, w porównaniu do 28,3% Google. W Chinach Baidu jest najpopularniejszą wyszukiwarką. Samochodowy portal wyszukiwania Korei Południowej, Naver , jest używany do 70% wyszukiwań online w tym kraju. Wieśniak! Japonia i Yahoo! Tajwan to najpopularniejsze miejsca wyszukiwania w Internecie, odpowiednio, w Japonii i na Tajwanie. Chiny są jednym z niewielu krajów, w których Google nie znajduje się w pierwszej trójce wyszukiwarek internetowych pod względem udziału w rynku. Google był wcześniej czołową wyszukiwarką w Chinach, ale wycofał się po sporze z rządem dotyczącym cenzury i cyberataku.
Europa
Większość rynków krajów Unii Europejskiej jest zdominowana przez Google, z wyjątkiem Czech , gdzie Seznam jest silnym konkurentem.
Wyszukiwarka Qwant siedzibą w Paryżu , we Francji , gdzie przyciąga większość swoich 50 milionów zarejestrowanych użytkowników z miesięcznych.
Stronniczość wyszukiwarek
Chociaż wyszukiwarki są zaprogramowane do oceniania witryn internetowych w oparciu o kombinację ich popularności i trafności, badania empiryczne wskazują na różne polityczne, ekonomiczne i społeczne uprzedzenia w dostarczanych przez nie informacjach oraz leżące u ich podstaw założenia dotyczące technologii. Te uprzedzenia mogą być bezpośrednim wynikiem procesów gospodarczych i handlowych (np. firmy, które reklamują się za pomocą wyszukiwarki, mogą stać się również bardziej popularne w swoich organicznych wynikach wyszukiwania ) oraz procesów politycznych (np. usuwanie wyników wyszukiwania w celu zachowania zgodności z lokalnymi przepisami ). Na przykład Google nie będzie udostępniać niektórych witryn neonazistowskich we Francji i Niemczech, gdzie negowanie Holokaustu jest nielegalne.
Błędy mogą być również wynikiem procesów społecznych, ponieważ algorytmy wyszukiwarek są często zaprojektowane tak, aby wykluczać nienormatywne punkty widzenia na rzecz bardziej „popularnych” wyników. Algorytmy indeksowania głównych wyszukiwarek skłaniają się ku zasięgowi witryn z siedzibą w USA, a nie witryn z krajów spoza USA.
Google Bombing to jeden z przykładów próby manipulowania wynikami wyszukiwania z powodów politycznych, społecznych lub handlowych.
Kilku naukowców badało zmiany kulturowe wywołane przez wyszukiwarki oraz przedstawianie w ich wynikach pewnych kontrowersyjnych tematów, takich jak terroryzm w Irlandii , zaprzeczanie zmianom klimatu i teorie spiskowe .
Dostosowane wyniki i filtry bąbelkowe
Wiele wyszukiwarek, takich jak Google i Bing, zapewnia dostosowane wyniki na podstawie historii aktywności użytkownika. Prowadzi to do efektu, który nazwano bańką filtrującą . Termin ten opisuje zjawisko, w którym strony internetowe wykorzystują algorytmy do selektywnego odgadywania, jakie informacje użytkownik chciałby zobaczyć, na podstawie informacji o nim (takich jak lokalizacja, zachowanie w przeszłości kliknięć i historia wyszukiwania). W rezultacie strony internetowe mają tendencję do pokazywania tylko informacji, które zgadzają się z przeszłym punktem widzenia użytkownika. To stawia użytkownika w stanie izolacji intelektualnej bez sprzecznych informacji. Najlepszymi przykładami są spersonalizowane wyniki wyszukiwania Google i spersonalizowany strumień wiadomości Facebooka . Według Eli Parisera , który ukuł ten termin, użytkownicy są mniej narażeni na sprzeczne punkty widzenia i są izolowani intelektualnie we własnej bańce informacyjnej. Pariser przytoczył przykład, w którym jeden użytkownik wyszukał w Google hasło „BP” i otrzymał informacje o inwestycjach na temat British Petroleum, podczas gdy inny użytkownik uzyskał informacje o wycieku ropy Deepwater Horizon i że dwie strony z wynikami wyszukiwania były „uderzająco różne”. Według Parisera, efekt bańki może mieć negatywne konsekwencje dla dyskursu obywatelskiego. Od czasu zidentyfikowania tego problemu pojawiły się konkurencyjne wyszukiwarki, które starają się uniknąć tego problemu, nie śledząc ani nie „ bulgotając ” użytkowników, takie jak DuckDuckGo . Inni badacze nie podzielają poglądu Parisera, uznając dowody na poparcie jego tezy za nieprzekonujące.
Wyszukiwarki religijne
Globalny rozwój Internetu i mediów elektronicznych w świecie arabskim i muzułmańskim w ciągu ostatniej dekady zachęcił wyznawców islamu na Bliskim Wschodzie i na subkontynencie azjatyckim do wypróbowania własnych wyszukiwarek, własnych filtrowanych portali wyszukiwania, które umożliwiłyby użytkownikom wykonywać bezpieczne wyszukiwania . Bardziej niż zwykle bezpieczne filtry wyszukiwania , te islamskie portale internetowe kategoryzują strony internetowe jako „ halal ” lub „ haram ”, w oparciu o interpretację „Prawa islamu” . ImHalal pojawił się online we wrześniu 2011 r. Halalgoogling pojawił się online w lipcu 2013 r . Używają one filtrów haram w kolekcjach Google i Bing (i innych).
Podczas gdy brak inwestycji i powolne tempo rozwoju technologii w świecie muzułmańskim zahamowały postęp i udaremniły sukces islamskiej wyszukiwarki, której głównymi konsumentami byli wyznawcy islamu, projekty takie jak Muxlim , muzułmańska strona o stylu życia, otrzymały miliony dolarów od inwestorów takich jak Rite Internet Ventures, a także się załamał. Inne wyszukiwarki zorientowane na religię to Jewogle, żydowska wersja Google i SeekFind.org, która jest chrześcijańska. SeekFind filtruje strony, które atakują lub degradują ich wiarę.
Przesłanie do wyszukiwarki
Przesłanie do wyszukiwarki internetowej to proces, w którym webmaster przesyła witrynę bezpośrednio do wyszukiwarki. Chociaż przesyłanie przez wyszukiwarkę jest czasami przedstawiane jako sposób na promocję witryny, generalnie nie jest to konieczne, ponieważ główne wyszukiwarki używają robotów indeksujących, które ostatecznie znajdą większość witryn w Internecie bez pomocy. Mogą przesłać jedną stronę na raz lub całą witrynę, korzystając z mapy witryny , ale zwykle wystarczy przesłać stronę główną witryny, ponieważ wyszukiwarki są w stanie zaindeksować dobrze zaprojektowaną witrynę. Istnieją dwa pozostałe powody, aby zgłosić witrynę internetową lub stronę internetową do wyszukiwarki: dodać zupełnie nową witrynę internetową bez czekania, aż wyszukiwarka ją wykryje, oraz aby zaktualizować rekord witryny internetowej po znacznym przeprojektowaniu.
Niektóre programy do przesyłania w wyszukiwarkach nie tylko przesyłają witryny do wielu wyszukiwarek, ale także dodają linki do witryn z ich własnych stron. Może to być pomocne w podnoszeniu rankingu witryny, ponieważ linki zewnętrzne są jednym z najważniejszych czynników decydujących o rankingu witryny. Jednak John Mueller z Google stwierdził, że „może to prowadzić do ogromnej liczby nienaturalnych linków do Twojej witryny”, co ma negatywny wpływ na ranking witryny.
Zobacz też
- Porównanie wyszukiwarek internetowych
- Filtr bańki
- Efekt Google
- Wyszukiwanie informacji
- Korzystanie z wyszukiwarek internetowych w bibliotekach
- Lista wyszukiwarek
- Odpowiadanie na pytania
- Efekt manipulacji w wyszukiwarkach
- Prywatność w wyszukiwarkach
- Sieć semantyczna
- Sprawdzanie pisowni
- Narzędzia do tworzenia stron internetowych
Bibliografia
Dalsza lektura
- Steve'a Lawrence'a; C. Lee Gilesa (1999). „Dostępność informacji w sieci” . Natura . 400 (6740): 107-9. Kod Bib : 1999Natur.400..107L . doi : 10.1038/21987 . PMID 10428673 . S2CID 4347646 .CS1 maint: wiele nazwisk: lista autorów ( link )
- Bing Liu (2007), Eksploracja danych internetowych: badanie hiperłączy, treści i danych dotyczących użytkowania . Springer, ISBN 3-540-37881-2
- Bar-Ilan, J. (2004). Wykorzystanie wyszukiwarek internetowych w badaniach naukowych. ARIST, 38, 231–288.
- Levene, Mark (2005). Wprowadzenie do wyszukiwarek i nawigacji w sieci . Osoba.
- Hock, Randolph (2007). Podręcznik ekstremalnego poszukiwacza .ISBN 978-0-910965-76-7
- Javed Mostafa (luty 2005). „W poszukiwaniu lepszych wyszukiwań w sieci”. Naukowy Amerykanin . 292 (2): 66-73. Kod bib : 2005SciAm.292b..66M . doi : 10.1038/scientificamerican0205-66 .
- Ross, Nancy; Wolfram, Dietmar (2000). „Wyszukiwanie użytkowników końcowych w Internecie: analiza tematów par terminów przesłanych do wyszukiwarki Excite”. Journal of the American Society for Information Science . 51 (10): 949–958. doi : 10.1002/1097-4571(2000)51:10<949::AID-ASI70>3.0.CO;2-5 .
- Xie, M.; i in. (1998). „Wymiary jakościowe wyszukiwarek internetowych”. Czasopismo Nauk Informacyjnych . 24 (5): 365–372. doi : 10.1177/016555159802400509 . S2CID 34686531 .
- Pobieranie informacji: Implementacja i ocena wyszukiwarek . MIT Naciśnij. 2010.