odzyskiwania dokumentów - Document retrieval

Odzyskiwania dokumentów jest definiowana jako dopasowanie pewnym określonym zapytaniu użytkownika przed zestawem wolnego tekstowych zapisów. Zapisy te mogą być dowolnego typu, głównie niestrukturalnych tekstu , takich jak artykuły prasowe , rejestrów nieruchomości lub akapitów w podręczniku. Zapytania użytkowników może wahać się od wielu zdanie pełne opisy o informacje potrzebne do kilku słów.

Odzyskiwanie dokument jest czasem określane jako, albo jako oddział, odzyskiwania tekstu . Odzyskiwanie tekst jest gałęzią pozyskiwania informacji , gdzie informacje są przechowywane głównie w postaci tekstu . Bazy danych tekstowych stało zdecentralizowane dzięki komputera osobistego i CD-ROM . Odzyskiwanie tekst jest krytyczny obszar badań dzisiaj, ponieważ jest to fundament wszystkich www wyszukiwarek .

Zawartość

1 Opis
2 Wariacje
- 2,1 podstawie Forma
- 2.2 Zawartość w oparciu
3 Przykład PubMed
4 Zobacz też
5 Odniesienia
6 Ponadto odczytu
7 Linki zewnętrzne

Opis

Odlewy dokument znaleźć informacje do podanych kryteriów poprzez dopasowanie zapisów tekstowych ( dokumenty ) przed zapytań użytkowników, w przeciwieństwie do systemów eksperckich , że odpowiedzi na pytania, których autorem jest wnioskowanie przez logiczną bazę wiedzy . System odzyskiwania dokumentów składa się z bazy dokumentów, o algorytmie klasyfikacji zbudować pełny indeks tekstu, a interfejs użytkownika w celu uzyskania dostępu do bazy danych.

System odzyskiwania dokumentów ma dwa główne zadania:

Znajdź odpowiednie dokumenty do zapytań użytkowników
Ocenia wyniki dopasowania i sortować je według trafności, stosując algorytmy takie jak PageRank .

Internet wyszukiwarek są klasyczne aplikacje pozyskiwania dokumentów. Zdecydowana większość systemów wyszukiwawczych obecnie w zakresie korzystania z prostych układów logicznych aż do systemów wykorzystujących statystycznych lub przetwarzania języka naturalnego technik.

Wariacje

Istnieją dwie główne klasy indeksowania schematów dla systemów odzyskiwania dokumentów: Formularz oparte (lub słowo oparte ), a na podstawie zawartości indeksowanie. Schemat klasyfikacji dokument (lub algorytm indeksowania ) użytkowania określa naturę systemu odzyskiwania dokumentów.

na podstawie formularza

Oparte odzyskiwania dokumentów forma odnosi dokładnych właściwości składniowe tekstu, porównywalne do podciągu dopasowania w wyszukiwaniach smyczkowych. Tekst jest ogólnie niestrukturalnych niekoniecznie w języku naturalnym, system może być wykorzystywany na przykład do obróbki dużych zestawów reprezentacji chemicznych w biologii molekularnej. Drzewa sufiks algorytm jest przykładem indeksowanie na podstawie formy.

zawartość w oparciu

Podejście oparte zawartość wykorzystuje semantycznych powiązań między dokumentami i ich części oraz semantycznych powiązań pomiędzy zapytaniami i dokumentów. Większość systemów wyszukiwawczych dokument treści oparte użyć indeksu odwróconego algorytmu.

Plik podpis jest techniką, która tworzy szybki i brudny filtr, na przykład filtra Bloom , który będzie na bieżąco wszystkich dokumentów, które pasują do zapytania i miejmy nadzieję kilka takich, które nie. Sposób, w jaki odbywa się to poprzez stworzenie jest dla każdego pliku podpisu, typowo hash kodowane wersję. Jedną z metod jest nałożony kodowania. Krok po przetwarzanie odbywa się odrzucić fałszywe alarmy. Ponieważ w większości przypadków ta struktura jest gorsza odwróconych plików pod względem prędkości, wielkości i funkcjonalności, nie jest powszechnie stosowane. Jednak przy odpowiednich parametrach można go pokonać odwróconego plików w pewnych środowiskach.

Przykład PubMed

PubMed interfejs forma rysy „artykuły związane z” szukanie która działa poprzez porównanie słowa z tytułu dokumentów, abstrakcyjny, a MeSH warunkach z wykorzystaniem algorytmu słowo ważony.

Zobacz też

Referencje

^ Kim W, Aronson AR Wilbur WJ (2001). „Automatyczne MeSH zadanie określenie i ocena jakości” . Proc AMIA Symp : 319-23. PMC 2243528 . PMID 11825203 .
^ „Obliczanie Podobne Cytaty” .
^ Lin J1, Wilbur WJ (30 października 2007). „PubMed podobne artykuły: a model probabilistyczny temat oparte na zawartości podobieństwa” . BMC bioinformatyki . 8 : 423. doi : 10.1186 / 1471-2105-8-423 . PMC 2212667 . PMID 17971238 .

Dalsza lektura

Faloutsos Christos; Christodoulakis Stavros (1984). „Pliki Podpis: Metoda dostępu do dokumentów, a jego analityczne oceniające wydajność”. ACM Transactions on Information Systems . 2 (4): 267-288. doi : 10,1145 / +2275,357411 .
Justin Zobel; Alistair Moffat; Kotagiri Ramamohanarao (1998). „Odwrócony plików kontra plików sygnatury dla indeksowania tekstu” (PDF) . ACM Transactions on Database Systems . 23 (4): 453-490. doi : 10,1145 / +296854,277632 .
Ben Carterette; Fazli Can (2005). „Porównując odwrócone i plików sygnatur do przeszukiwania dużych leksykon” (PDF) . Przetwarzanie informacji i zarządzania . 41 (3): 613-633. doi : 10,1016 / j.ipm.2003.12.003 .

Linki zewnętrzne

Multimedia związane z tematem odzyskiwania dokumentów w Wikimedia Commons
Formalna Fundacja wyszukiwania informacji , Buckinghamshire Chilterns University College

[1] Kim W, Aronson AR Wilbur WJ (2001). „Automatyczne MeSH zadanie określenie i ocena jakości” . Proc AMIA Symp : 319-23. PMC 2243528 . PMID 11825203 .

[2] „Obliczanie Podobne Cytaty” .

[3] Lin J1, Wilbur WJ (30 października 2007). „PubMed podobne artykuły: a model probabilistyczny temat oparte na zawartości podobieństwa” . BMC bioinformatyki . 8 : 423. doi : 10.1186 / 1471-2105-8-423 . PMC 2212667 . PMID 17971238 .

Languages

In other projects