Synteza mowy
Z Wikipedii
Synteza mowy - polega na mechanicznej zamianie tekstu zapisanego w postaci znakowej na wypowiedź (mowę) w postaci dźwiękowej. Maszynę lub program komputerowy zamieniający tekst na mowę określa się mianem syntezatora mowy. W zależności od syntezatora, możemy uzyskać bardzo dokładną wymowę także słów nietypowych, literowanie różnych skrótów, odczytywanie liczb w tym również ułamków oraz odczytywanie dat poprzez dekomponowanie liczb. Syntezatory mowy mają wiele zastosowań. Pozwalają na zautomatyzowanie informowania bądź alarmowania użytkownika, są pomocne przy nauce języków obcych oraz tłumaczeniach, mogą także np. odczytywać dokumenty pisane alfabetem Brailla. Jeśli chodzi o syntezatory przystosowane do zamiany tekstu na mowę polską to dostarczony im tekst powinien zawierać dowolne znaki kodowane zgodne ze standardem WIN 1250.
Spis treści |
[edytuj] Sprzęt
Można wydzielić dwa rodzaje syntezatorów - software'owe (programy komputerowe) i hardware'owe (urządzenia peryferyjne). Obecnie na rynku dostępnych jest wiele różnorodnych wersji oprogramowania komputerowego, które z dnia na dzień jest doskonalsze - obecnie najpopularniejsze w użyciu są tzw. screnreadery czytające tekst z ekranu. Jednak w użyciu powszechnym znajdują się również urządzenia peryferyjne komputerów (np. syntezator SMP-4) jak i urządzenia samodzielne, np. mówiące skanery (np. Poet compact), czytające drukowany tekst bezpośrednio z kartki, czy mówiące notesy (np. typowo polski Kajetek 2000) jako przenośne urządzenia pozwalające odsłuchiwać dokumenty tekstowe w podróży.
[edytuj] Synteza komputerowa
Aby wygenerować dźwięk używa się standardowego mechanizmu wbudowanego w systemy Windows (windows 3,X, 95, 98,Me, 2000, XP) - Multimedia Control Interface (MCI) lub w systemy Linux - rsynth. Dzięki temu mechanizmowi każdy, nawet najprostszy syntezator mowy może dobrze i bez konfliktów funkcjonować na wszystkich komputerach wyposażonych w prawidłowo zainstalowaną kartę dźwiękową.
[edytuj] Proces syntezy mowy TTS (ang. Text To Speech)
Obecnie najbardziej upowszechnionym systemem syntezy mowy jest TTS (z ang. text to speech tekst do mowy). Dzielimy go na dwa główne etapy, składające się z wielu pośrednich kroków, wymagających sporej wiedzy lingwistycznej i matematycznej. W pierwszym etapie program wydobywa z wprowadzonej frazy jak największą ilość informacji lingwistycznych - stara się zrozumieć tekst. Etap ten nazywany jest przetwarzaniem języka naturalnego - NLP (ang. Natural Language Processing).
- W etapie NLP wyróżniamy następujące działania
- analiza tekstu
- transkrypcja fonetyczna
- generowanie prozodii
- wysłanie danych do DSP
Na podstawie zdobytych informacji następuje synteza dźwiękowej frazy - jest to etap cyfrowego przetwarzania sygnału DSP (ang. Digital Signal Processing).
- Na etapie DSP zachodzą takie procesy jak
- odbiór fonemów i prozodii z etapu NLP
- dekodowanie / dekompresja segmentów (dzięki bazie segmentów)
- dopasowanie prozodii
- konkatenacja, czyli łączenie segmentów
- synteza sygnału
- mowa
[edytuj] Rodzaje syntezy sygnału mowy
Niektóre syntezatory korzystają z alofonicznej metody syntezy mowy. Polega ona na składaniu potrzebnych słów z dźwięków elementarnych, odpowiadających mniej więcej pojedynczym literom alfabetu. Każdy z dźwięków zapamiętywany jest w pamięci komputera i w odpowiedniej chwili i kolejności zostaje odtworzony. Metoda wymaga dużych mocy obliczeniowych komputera a efekt końcowy jest trochę mechaniczny.
Drugą metodą jest metoda konkatencyjna. Polega na nagraniu dużej bazy prawdziwego głosu lektora (tzw. baza segmentów), jej oznaczeniu i przetworzeniu, a następnie w procesie syntezy mowy wybieraniu, modyfikowaniu oraz składaniu sygnału mowy z fragmentów wcześniejszych nagrań. Technika ta pozwala na uzyskanie mowy najbardziej naturalnej.
[edytuj] Firmy, oraz przykładowe produkty branży syntezy mowy
- SynTalk - jeden z pierwszych syntezatorów mowy polskiej
- Drive(syntezator mowy) - grupa programistyczna programu Lektor (syntezator mowy)
- DANT - syntezator mowy polskiej
- Powiedz - syntezator mowy polskiej dla środowiska Linux
- ALTIX - zajmujący się technologia dla niewidomych i słabo widzących
- CNIN - Centrum Komputerowe dla Studentów Niewidomych i Niepełnosprawnych dostarczające m.in. oprogramowania i sprzętów syntezujących mowę
- Synteza mowy -darmowy Serwer Syntezy Mowy WP działający jako wtyczka z programami np. Spik, WPKontakt
- Ivo Software - Polski komercyjny producent oprogramowania syntezującego mowę
- ECE firma produkująca sprzętowe syntezatory mowy
- Scansoft - zagraniczna firma, twórca standardu Realspeak, na którym opierają się niektóre polskie syntezatory
- Acapela-group - zagraniczna grupa programistyczna dostarczająca serwery naturalnej mowy, w tym i polskiej
- MBROLA - akademicki projekt międzynarodowej syntezy mowy
- Blazie - zagraniczna firma oferująca rozwiązania syntezy mowy Braill to Speach
- Syntezator Konkatenacyjny ZF PAN - pierwszy polski syntezator, powstały w poznańskim Zakładzie Fonetyki Akustycznej , Polskiej Akademii Nauk, oparty o syntezator formantowy MEA 8000