odzyskiwania dokumentów - Document retrieval
Odzyskiwania dokumentów jest definiowana jako dopasowanie pewnym określonym zapytaniu użytkownika przed zestawem wolnego tekstowych zapisów. Zapisy te mogą być dowolnego typu, głównie niestrukturalnych tekstu , takich jak artykuły prasowe , rejestrów nieruchomości lub akapitów w podręczniku. Zapytania użytkowników może wahać się od wielu zdanie pełne opisy o informacje potrzebne do kilku słów.
Odzyskiwanie dokument jest czasem określane jako, albo jako oddział, odzyskiwania tekstu . Odzyskiwanie tekst jest gałęzią pozyskiwania informacji , gdzie informacje są przechowywane głównie w postaci tekstu . Bazy danych tekstowych stało zdecentralizowane dzięki komputera osobistego i CD-ROM . Odzyskiwanie tekst jest krytyczny obszar badań dzisiaj, ponieważ jest to fundament wszystkich www wyszukiwarek .
Zawartość
Opis
Odlewy dokument znaleźć informacje do podanych kryteriów poprzez dopasowanie zapisów tekstowych ( dokumenty ) przed zapytań użytkowników, w przeciwieństwie do systemów eksperckich , że odpowiedzi na pytania, których autorem jest wnioskowanie przez logiczną bazę wiedzy . System odzyskiwania dokumentów składa się z bazy dokumentów, o algorytmie klasyfikacji zbudować pełny indeks tekstu, a interfejs użytkownika w celu uzyskania dostępu do bazy danych.
System odzyskiwania dokumentów ma dwa główne zadania:
- Znajdź odpowiednie dokumenty do zapytań użytkowników
- Ocenia wyniki dopasowania i sortować je według trafności, stosując algorytmy takie jak PageRank .
Internet wyszukiwarek są klasyczne aplikacje pozyskiwania dokumentów. Zdecydowana większość systemów wyszukiwawczych obecnie w zakresie korzystania z prostych układów logicznych aż do systemów wykorzystujących statystycznych lub przetwarzania języka naturalnego technik.
Wariacje
Istnieją dwie główne klasy indeksowania schematów dla systemów odzyskiwania dokumentów: Formularz oparte (lub słowo oparte ), a na podstawie zawartości indeksowanie. Schemat klasyfikacji dokument (lub algorytm indeksowania ) użytkowania określa naturę systemu odzyskiwania dokumentów.
na podstawie formularza
Oparte odzyskiwania dokumentów forma odnosi dokładnych właściwości składniowe tekstu, porównywalne do podciągu dopasowania w wyszukiwaniach smyczkowych. Tekst jest ogólnie niestrukturalnych niekoniecznie w języku naturalnym, system może być wykorzystywany na przykład do obróbki dużych zestawów reprezentacji chemicznych w biologii molekularnej. Drzewa sufiks algorytm jest przykładem indeksowanie na podstawie formy.
zawartość w oparciu
Podejście oparte zawartość wykorzystuje semantycznych powiązań między dokumentami i ich części oraz semantycznych powiązań pomiędzy zapytaniami i dokumentów. Większość systemów wyszukiwawczych dokument treści oparte użyć indeksu odwróconego algorytmu.
Plik podpis jest techniką, która tworzy szybki i brudny filtr, na przykład filtra Bloom , który będzie na bieżąco wszystkich dokumentów, które pasują do zapytania i miejmy nadzieję kilka takich, które nie. Sposób, w jaki odbywa się to poprzez stworzenie jest dla każdego pliku podpisu, typowo hash kodowane wersję. Jedną z metod jest nałożony kodowania. Krok po przetwarzanie odbywa się odrzucić fałszywe alarmy. Ponieważ w większości przypadków ta struktura jest gorsza odwróconych plików pod względem prędkości, wielkości i funkcjonalności, nie jest powszechnie stosowane. Jednak przy odpowiednich parametrach można go pokonać odwróconego plików w pewnych środowiskach.
Przykład PubMed
PubMed interfejs forma rysy „artykuły związane z” szukanie która działa poprzez porównanie słowa z tytułu dokumentów, abstrakcyjny, a MeSH warunkach z wykorzystaniem algorytmu słowo ważony.
Zobacz też
- Związek przetwarzania termin
- Klasyfikacja dokument
- wyszukiwania korporacyjnego
- Działania ewaluacyjne (wyszukiwanie informacji)
- Wyszukiwanie pełnotekstowe
- Wyszukiwanie informacji
- Ukryte indeksowanie semantyczne
- Wyszukiwarka
Referencje
- ^ Kim W, Aronson AR Wilbur WJ (2001). „Automatyczne MeSH zadanie określenie i ocena jakości” . Proc AMIA Symp : 319-23. PMC 2243528 . PMID 11825203 .
- ^ „Obliczanie Podobne Cytaty” .
- ^ Lin J1, Wilbur WJ (30 października 2007). „PubMed podobne artykuły: a model probabilistyczny temat oparte na zawartości podobieństwa” . BMC bioinformatyki . 8 : 423. doi : 10.1186 / 1471-2105-8-423 . PMC 2212667 . PMID 17971238 .
Dalsza lektura
- Faloutsos Christos; Christodoulakis Stavros (1984). „Pliki Podpis: Metoda dostępu do dokumentów, a jego analityczne oceniające wydajność”. ACM Transactions on Information Systems . 2 (4): 267-288. doi : 10,1145 / +2275,357411 .
- Justin Zobel; Alistair Moffat; Kotagiri Ramamohanarao (1998). „Odwrócony plików kontra plików sygnatury dla indeksowania tekstu” (PDF) . ACM Transactions on Database Systems . 23 (4): 453-490. doi : 10,1145 / +296854,277632 .
- Ben Carterette; Fazli Can (2005). „Porównując odwrócone i plików sygnatur do przeszukiwania dużych leksykon” (PDF) . Przetwarzanie informacji i zarządzania . 41 (3): 613-633. doi : 10,1016 / j.ipm.2003.12.003 .
Linki zewnętrzne
- Multimedia związane z tematem odzyskiwania dokumentów w Wikimedia Commons
- Formalna Fundacja wyszukiwania informacji , Buckinghamshire Chilterns University College