Normalizacja tekstu
Z Wikipedii
Normalizacja tekstu - proces przetwarzania tekstu, podczas którego tekst uzyskuje spójność, której wcześniej mógł nie mieć.
Proces normalizacji może obejmować w szczególności:
- zmianę wielkości liter (na małe lub wielkie)
- rozwinięcie skrótów
- usunięcie znaków interpunkcyjnych
- usunięcie (lub zastąpienie) znaków diakrytycznych
Normalizacja poprzedza z reguły inne procesy przetwarzania tekstu, jak przechowywanie w bazie danych, synteza mowy, kompresja czy też automatyczne tłumaczenie na inny język.