Uogólniony model przestrzeni wektorowej - Generalized vector space model
Uogólnionego modelu przestrzeń wektor jest uogólnieniem modelu przestrzeni wektorowej stosowanego w wyszukiwaniu informacji . Wong i in. przedstawili analizę problemów, jakie stwarza założenie ortogonalności parami modelu przestrzeni wektorowej (VSM). Stąd rozszerzyli VSM do uogólnionego modelu przestrzeni wektorowej (GVSM).
Definicje
GVSM wprowadza korelacje między terminami, które unieważniają założenie o ortogonalności parami. Dokładniej, czynnik rozważał nową przestrzeń, w której każdy wektor członu t i został wyrażony jako liniowa kombinacja 2 n wektorów m r, gdzie r = 1 ... 2 n .
Dla dokumentu d k i zapytania q funkcja podobieństwa wygląda teraz następująco:
gdzie t i i t j są teraz wektorami 2 n- wymiarowej przestrzeni.
Korelację terminów można zaimplementować na kilka sposobów. Na przykład Wong i wsp. wykorzystuje termin macierz częstotliwości występowania uzyskaną z automatycznego indeksowania jako dane wejściowe do swojego algorytmu. Termin występowanie i wynik to korelacja terminów między dowolną parą terminów indeksowych.
Informacje semantyczne na temat GVSM
Istnieją co najmniej dwa podstawowe kierunki osadzania powiązań terminów z terminami, inne niż dokładne dopasowanie słów kluczowych, w modelu pobierania:
- obliczać korelacje semantyczne między terminami
- oblicz statystyki współwystępowania częstotliwości z dużych korpusów
Ostatnio Tsatsaronis skupił się na pierwszym podejściu.
Mierzą pokrewieństwo semantyczne ( SR ) za pomocą tezaurusa ( O ), takiego jak WordNet . Uwzględnia długość ścieżki, uchwyconą przez zwartość ( SCM ), i głębokość ścieżki, uchwyconą przez semantyczne opracowanie ścieżki ( SPE ). Oszacować one produkt wewnętrznej przez:
gdzie s i i s j są znaczeniami terminów odpowiednio t i i t j , maksymalizując .
Opierając się również na pierwszym podejściu, Waitelonis et. glin. mieć obliczoną semantycznej pokrewieństwo z Linked Open Data zasobów w tym dbpedia jak również taksonomii Yago . W ten sposób wykorzystują związki taksonomiczne między jednostkami semantycznymi w dokumentach i zapytaniach po powiązaniu nazwanych jednostek .