Dyskryminacja terminowa - Term discrimination

Dyskryminacja terminów to sposób na uszeregowanie słów kluczowych pod kątem ich przydatności do wyszukiwania informacji .

Przegląd

Jest to metoda podobna do tf-idf, ale zajmuje się wyszukiwaniem słów kluczowych odpowiednich do wyszukiwania informacji i takich, które nie są. Najpierw zapoznaj się z modelem przestrzeni wektorowej .

Ta metoda wykorzystuje koncepcję gęstości przestrzeni wektorowej, zgodnie z którą im mniej gęsta macierz wystąpień , tym lepsze będzie zapytanie o informacje.

Optymalny termin indeksu to taki, który może rozróżniać dwa różne dokumenty i odnosić się do dwóch podobnych dokumentów. Z drugiej strony nieoptymalny termin indeksu nie może odróżnić dwóch różnych dokumentów od dwóch podobnych dokumentów.

Wartość dyskryminacji jest różnicą w gęstości przestrzeni wektorowej macierzy wystąpień w porównaniu z przestrzenią wektorową tej samej macierzy bez gęstości składnika indeksu.

Let:
 be the occurrence matrix
 be the occurrence matrix without the index term 
and  be density of .
Then:
The discrimination value of the index term  is: 

Jak obliczyć

Biorąc pod uwagę macierz występowania : i jedno słowo kluczowe:

  • Znajdź globalną centroidę dokumentu : (to tylko przeciętny wektor dokumentu)
  • Znajdź średnią odległość euklidesową od każdego wektora dokumentu do
  • Znajdź średnią odległość euklidesową od każdego wektora dokumentu, do IGNOROWANIA
  • Różnica między dwiema wartościami w powyższym kroku jest wartością dyskryminacyjną dla słowa kluczowego

Wyższa wartość jest lepsza, ponieważ uwzględnienie słowa kluczowego zapewni lepsze wyszukiwanie informacji.

Obserwacje jakościowe

Rzadkie słowa kluczowe powinny słabo dyskryminować, ponieważ są słabo zapamiętywane , podczas gdy słowa kluczowe, które są częste, powinny słabo dyskryminować, ponieważ mają małą dokładność .

Bibliografia

  • G. Salton , A. Wong i CS Yang (1975), „ A Vector Space Model for Automatic Indexing ”, Communications of the ACM , vol. 18, nr. 11, strony 613–620. (Artykuł, w którym po raz pierwszy zaprezentowano model przestrzeni wektorowej)
  • Can, F., Ozkarahan, E. A (1987), „Obliczanie wartości dyskryminacji termin / dokument przy użyciu koncepcji współczynnika pokrycia”. Journal of the American Society for Information Science , vol. 38, nr. 3, strony 171-183.