Wyszukiwanie zbliżeniowe (tekst) - Proximity search (text)

W przetwarzania tekstu , a wyszukiwarka bliskość szuka dokumentów, w których dwa lub więcej oddzielnie dopasowania zdarzenia okresie są w określonym odległości , gdzie odległość jest liczba słów lub znaków pośrednich. Oprócz bliskości, niektóre implementacje mogą również nakładać ograniczenie na kolejność słów, tak że kolejność w wyszukiwanym tekście musi być identyczna z kolejnością zapytania wyszukiwania. Wyszukiwanie bliskości wykracza poza proste dopasowywanie słów poprzez dodanie ograniczenia bliskości i jest powszechnie uważane za formę wyszukiwania zaawansowanego.

Na przykład wyszukiwanie może posłużyć do znalezienia „dom z czerwonej cegły” i dopasowania wyrażeń, takich jak „dom z czerwonej cegły” lub „dom z czerwonej cegły”. Ograniczając bliskość, te frazy można dopasować, unikając dokumentów, w których słowa są rozproszone lub rozłożone na stronie lub w niepowiązanych artykułach w antologii.

Racjonalne uzasadnienie

Podstawowym założeniem językowym wyszukiwania bliskości jest to, że bliskość słów w dokumencie implikuje związek między słowami. Biorąc pod uwagę, że autorzy dokumentów próbują formułować zdania, które zawierają pojedynczą ideę lub grupę powiązanych pomysłów w sąsiednich zdaniach lub są zorganizowane w akapity, w strukturze dokumentu istnieje nieodłączne, stosunkowo wysokie prawdopodobieństwo, że słowa użyte razem są ze sobą powiązane. Z drugiej strony, gdy dwa słowa znajdują się na przeciwległych końcach książki, prawdopodobieństwo związku między nimi jest stosunkowo niewielkie. Ograniczając wyniki wyszukiwania, aby obejmowały tylko dopasowania, w których słowa znajdują się w określonym maksymalnym sąsiedztwie lub odległości, zakłada się, że wyniki wyszukiwania mają większą trafność niż dopasowania, w których słowa są rozproszone.

Komercyjne wyszukiwarki internetowe mają tendencję do generowania zbyt wielu dopasowań (znanych jako przypominanie) dla przeciętnego zapytania wyszukiwania. Wyszukiwanie zbliżeniowe to jedna z metod zmniejszania liczby dopasowanych stron i poprawiania trafności dopasowanych stron poprzez użycie bliskości wyrazów do wspomagania rankingu. Dodatkową korzyścią jest to, że wyszukiwanie zbliżeniowe pomaga zwalczać spamdexing poprzez unikanie stron internetowych zawierających listy słowników lub listy strzeleckie zawierające tysiące słów, które w przeciwnym razie miałyby wysoką pozycję w rankingu, gdyby wyszukiwarka była mocno nastawiona na częstotliwość słów .

Składnia i operatory logiczne

Pamiętaj, że wyszukiwanie bliskości może oznaczać, że tylko niektóre słowa kluczowe muszą znajdować się w określonej odległości. Wyszukiwanie zbliżeniowe może być używane z inną składnią wyszukiwania i/lub kontrolkami, aby umożliwić bardziej czytelne zapytania wyszukiwania. Czasami operatory zapytań, takie jak NEAR, NOT NEAR, FOLLOWED BY, NOT FOLLOWED BY, SENTENCE lub FAR, są używane do wskazania limitu wyszukiwania bliskości między określonymi słowami kluczowymi, na przykład „cegła NEAR dom”.

Wykorzystanie w komercyjnych wyszukiwarkach

W odniesieniu do niejawnego/automatycznego i jawnego wyszukiwania bliskości, od listopada 2008 r. większość wyszukiwarek internetowych implementuje jedynie niejawną funkcję wyszukiwania bliskości. Oznacza to, że automatycznie oceniają te wyniki wyszukiwania wyżej, gdy słowa kluczowe użytkownika mają dobry „ogólny wynik bliskości” w takich wynikach. Jeśli w zapytaniu znajdują się tylko dwa słowa kluczowe, nie ma to różnicy w porównaniu z jawnym wyszukiwaniem bliskości, w którym między dwoma słowami kluczowymi umieszczany jest operator NEAR. Jeśli jednak występują trzy lub więcej niż trzy słowa kluczowe, często ważne jest, aby użytkownik określił, które podzbiory tych słów kluczowych oczekują bliskości w wynikach wyszukiwania. Jest to przydatne, jeśli użytkownik chce przeprowadzić wyszukiwanie według stanu techniki (np. znalezienie istniejącego podejścia do wykonania określonego zadania, znalezienie dokumentu, który ujawnia system, który wykazuje zachowanie proceduralne realizowane wspólnie przez kilka komponentów i powiązania między tymi komponentami).

Wyszukiwarki internetowe, które obsługują wyszukiwanie zbliżeniowe za pomocą jawnego operatora zbliżeniowego w ich języku zapytań, obejmują Walhello , Exalead , Yandex , Yahoo! , Altavista i Bing :

  • W przypadku korzystania z wyszukiwarki Walhello odległość można określić liczbą znaków między słowami kluczowymi.
  • Wyszukiwarka Exalead pozwala użytkownikowi określić wymaganą odległość, jako maksymalną liczbę słów pomiędzy słowami kluczowymi. Składnia jest taka, (keyword1 NEAR/n keyword2)gdzie n jest liczbą słów.
  • Yandex używa składni keyword1 /n keyword2do wyszukiwania dwóch słów kluczowych oddzielonych co najwyżej słowami i obsługuje kilka innych odmian tej składni.
  • Wieśniak! i Altavista obsługują nieudokumentowany operator NEAR. Składnia to keyword1 NEAR keyword2.
  • Wyszukiwarka Google obsługuje AROUND(#).
  • Bing obsługuje BLISKO. Składnia jest taka, keyword1 near:n keyword2gdzie n = liczba maksymalnych słów oddzielających.

Zamówione wyszukiwanie w Google i Yahoo! wyszukiwarki są możliwe przy użyciu gwiazdki (*) pełnych symboli wieloznacznych : w Google oznacza to jedno lub więcej słów, aw Yahoo! Wyszukaj to pasuje dokładnie do jednego słowa. (Można to łatwo zweryfikować, wyszukując następującą frazę zarówno w Google, jak i Yahoo!: "wciągająca * od biblioskopii".)

Aby naśladować nieuporządkowane wyszukiwanie operatora NEAR można wykonać za pomocą kombinacji uporządkowanych wyszukiwań. Na przykład, aby określić bliskie współwystępowanie słów „dom” i „pies”, można podać następujące wyrażenie wyszukiwania: „pies domowy” OR „dom dla psa” OR „dom * pies” OR „pies * dom” OR "dom * * pies" LUB "pies * * dom".

Zobacz też

Uwagi