odzyskiwania dokumentów - Document retrieval

Odzyskiwania dokumentów jest definiowana jako dopasowanie pewnym określonym zapytaniu użytkownika przed zestawem wolnego tekstowych zapisów. Zapisy te mogą być dowolnego typu, głównie niestrukturalnych tekstu , takich jak artykuły prasowe , rejestrów nieruchomości lub akapitów w podręczniku. Zapytania użytkowników może wahać się od wielu zdanie pełne opisy o informacje potrzebne do kilku słów.

Odzyskiwanie dokument jest czasem określane jako, albo jako oddział, odzyskiwania tekstu . Odzyskiwanie tekst jest gałęzią pozyskiwania informacji , gdzie informacje są przechowywane głównie w postaci tekstu . Bazy danych tekstowych stało zdecentralizowane dzięki komputera osobistego i CD-ROM . Odzyskiwanie tekst jest krytyczny obszar badań dzisiaj, ponieważ jest to fundament wszystkich www wyszukiwarek .

Opis

Odlewy dokument znaleźć informacje do podanych kryteriów poprzez dopasowanie zapisów tekstowych ( dokumenty ) przed zapytań użytkowników, w przeciwieństwie do systemów eksperckich , że odpowiedzi na pytania, których autorem jest wnioskowanie przez logiczną bazę wiedzy . System odzyskiwania dokumentów składa się z bazy dokumentów, o algorytmie klasyfikacji zbudować pełny indeks tekstu, a interfejs użytkownika w celu uzyskania dostępu do bazy danych.

System odzyskiwania dokumentów ma dwa główne zadania:

  1. Znajdź odpowiednie dokumenty do zapytań użytkowników
  2. Ocenia wyniki dopasowania i sortować je według trafności, stosując algorytmy takie jak PageRank .

Internet wyszukiwarek są klasyczne aplikacje pozyskiwania dokumentów. Zdecydowana większość systemów wyszukiwawczych obecnie w zakresie korzystania z prostych układów logicznych aż do systemów wykorzystujących statystycznych lub przetwarzania języka naturalnego technik.

Wariacje

Istnieją dwie główne klasy indeksowania schematów dla systemów odzyskiwania dokumentów: Formularz oparte (lub słowo oparte ), a na podstawie zawartości indeksowanie. Schemat klasyfikacji dokument (lub algorytm indeksowania ) użytkowania określa naturę systemu odzyskiwania dokumentów.

na podstawie formularza

Oparte odzyskiwania dokumentów forma odnosi dokładnych właściwości składniowe tekstu, porównywalne do podciągu dopasowania w wyszukiwaniach smyczkowych. Tekst jest ogólnie niestrukturalnych niekoniecznie w języku naturalnym, system może być wykorzystywany na przykład do obróbki dużych zestawów reprezentacji chemicznych w biologii molekularnej. Drzewa sufiks algorytm jest przykładem indeksowanie na podstawie formy.

zawartość w oparciu

Podejście oparte zawartość wykorzystuje semantycznych powiązań między dokumentami i ich części oraz semantycznych powiązań pomiędzy zapytaniami i dokumentów. Większość systemów wyszukiwawczych dokument treści oparte użyć indeksu odwróconego algorytmu.

Plik podpis jest techniką, która tworzy szybki i brudny filtr, na przykład filtra Bloom , który będzie na bieżąco wszystkich dokumentów, które pasują do zapytania i miejmy nadzieję kilka takich, które nie. Sposób, w jaki odbywa się to poprzez stworzenie jest dla każdego pliku podpisu, typowo hash kodowane wersję. Jedną z metod jest nałożony kodowania. Krok po przetwarzanie odbywa się odrzucić fałszywe alarmy. Ponieważ w większości przypadków ta struktura jest gorsza odwróconych plików pod względem prędkości, wielkości i funkcjonalności, nie jest powszechnie stosowane. Jednak przy odpowiednich parametrach można go pokonać odwróconego plików w pewnych środowiskach.

Przykład PubMed

PubMed interfejs forma rysy „artykuły związane z” szukanie która działa poprzez porównanie słowa z tytułu dokumentów, abstrakcyjny, a MeSH warunkach z wykorzystaniem algorytmu słowo ważony.

Zobacz też

Referencje

  1. ^ Kim W, Aronson AR Wilbur WJ (2001). „Automatyczne MeSH zadanie określenie i ocena jakości” . Proc AMIA Symp : 319-23. PMC  2243528 . PMID  11825203 .
  2. ^ „Obliczanie Podobne Cytaty” .
  3. ^ Lin J1, Wilbur WJ (30 października 2007). „PubMed podobne artykuły: a model probabilistyczny temat oparte na zawartości podobieństwa” . BMC bioinformatyki . 8 : 423. doi : 10.1186 / 1471-2105-8-423 . PMC  2212667 . PMID  17971238 .

Dalsza lektura

Linki zewnętrzne