Stop listy
Z Wikipedii
Stop-Lista (ang. Stop-Words) - lista odrzucanych słów.
Eliminacja słów o małym znaczeniu (spójniki: i, oraz, lub) oraz słów popularnych (mp3, sex) czyli wszystkich należących do grupy słów nie wpływających na identyfikację dokumentu. Stosowane w wyszukiwarkach w celu zredukowania wielkości zbiorów.
Listy takie można utworzyć dla określonej dziedziny lub dla określonego języka. Istnieją stop–listy dla języka angielskiego, zawierające ok. 450 słów.
Usuwanie wyrazów nieznaczących z tekstu może się odbywać w następujący sposób:
- słownikowy - z tekstu usuwane są wyrazy wymienione w specjalnym słowniku.
- statystyczny - z tekstu usuwane są wyrazy, których częstość występowania znajduje się w założonym przedziale.
- hybrydowy - połączenie powyższych technik.