Uogólniony model przestrzeni wektorowej - Generalized vector space model

Uogólnionego modelu przestrzeń wektor jest uogólnieniem modelu przestrzeni wektorowej stosowanego w wyszukiwaniu informacji . Wong i in. przedstawili analizę problemów, jakie stwarza założenie ortogonalności parami modelu przestrzeni wektorowej (VSM). Stąd rozszerzyli VSM do uogólnionego modelu przestrzeni wektorowej (GVSM).

Definicje

GVSM wprowadza korelacje między terminami, które unieważniają założenie o ortogonalności parami. Dokładniej, czynnik rozważał nową przestrzeń, w której każdy wektor członu t i został wyrażony jako liniowa kombinacja 2 n wektorów m r, gdzie r = 1 ... 2 n .

Dla dokumentu d k i zapytania q funkcja podobieństwa wygląda teraz następująco:

gdzie t i i t j są teraz wektorami 2 n- wymiarowej przestrzeni.

Korelację terminów można zaimplementować na kilka sposobów. Na przykład Wong i wsp. wykorzystuje termin macierz częstotliwości występowania uzyskaną z automatycznego indeksowania jako dane wejściowe do swojego algorytmu. Termin występowanie i wynik to korelacja terminów między dowolną parą terminów indeksowych.

Informacje semantyczne na temat GVSM

Istnieją co najmniej dwa podstawowe kierunki osadzania powiązań terminów z terminami, inne niż dokładne dopasowanie słów kluczowych, w modelu pobierania:

  1. obliczać korelacje semantyczne między terminami
  2. oblicz statystyki współwystępowania częstotliwości z dużych korpusów

Ostatnio Tsatsaronis skupił się na pierwszym podejściu.

Mierzą pokrewieństwo semantyczne ( SR ) za pomocą tezaurusa ( O ), takiego jak WordNet . Uwzględnia długość ścieżki, uchwyconą przez zwartość ( SCM ), i głębokość ścieżki, uchwyconą przez semantyczne opracowanie ścieżki ( SPE ). Oszacować one produkt wewnętrznej przez:

gdzie s i i s j są znaczeniami terminów odpowiednio t i i t j , maksymalizując .

Opierając się również na pierwszym podejściu, Waitelonis et. glin. mieć obliczoną semantycznej pokrewieństwo z Linked Open Data zasobów w tym dbpedia jak również taksonomii Yago . W ten sposób wykorzystują związki taksonomiczne między jednostkami semantycznymi w dokumentach i zapytaniach po powiązaniu nazwanych jednostek .



Bibliografia