Synteza mowy

Z Wikipedii

Synteza mowy - polega na mechanicznej zamianie tekstu zapisanego w postaci znakowej na wypowiedź (mowę) w postaci dźwiękowej. Maszynę lub program komputerowy zamieniający tekst na mowę określa się mianem syntezatora mowy. W zależności od syntezatora, możemy uzyskać bardzo dokładną wymowę także słów nietypowych, literowanie różnych skrótów, odczytywanie liczb w tym również ułamków oraz odczytywanie dat poprzez dekomponowanie liczb. Syntezatory mowy mają wiele zastosowań. Pozwalają na zautomatyzowanie informowania bądź alarmowania użytkownika, są pomocne przy nauce języków obcych oraz tłumaczeniach, mogą także np. odczytywać dokumenty pisane alfabetem Brailla. Jeśli chodzi o syntezatory przystosowane do zamiany tekstu na mowę polską to dostarczony im tekst powinien zawierać dowolne znaki kodowane zgodne ze standardem WIN 1250.

Spis treści

1 Sprzęt
- 1.1 Synteza komputerowa
2 Proces syntezy mowy TTS (ang. Text To Speech)
3 Rodzaje syntezy sygnału mowy
4 Firmy, oraz przykładowe produkty branży syntezy mowy

[edytuj] Sprzęt

Można wydzielić dwa rodzaje syntezatorów - software'owe (programy komputerowe) i hardware'owe (urządzenia peryferyjne). Obecnie na rynku dostępnych jest wiele różnorodnych wersji oprogramowania komputerowego, które z dnia na dzień jest doskonalsze - obecnie najpopularniejsze w użyciu są tzw. screnreadery czytające tekst z ekranu. Jednak w użyciu powszechnym znajdują się również urządzenia peryferyjne komputerów (np. syntezator SMP-4) jak i urządzenia samodzielne, np. mówiące skanery (np. Poet compact), czytające drukowany tekst bezpośrednio z kartki, czy mówiące notesy (np. typowo polski Kajetek 2000) jako przenośne urządzenia pozwalające odsłuchiwać dokumenty tekstowe w podróży.

[edytuj] Synteza komputerowa

Aby wygenerować dźwięk używa się standardowego mechanizmu wbudowanego w systemy Windows (windows 3,X, 95, 98,Me, 2000, XP) - Multimedia Control Interface (MCI) lub w systemy Linux - rsynth. Dzięki temu mechanizmowi każdy, nawet najprostszy syntezator mowy może dobrze i bez konfliktów funkcjonować na wszystkich komputerach wyposażonych w prawidłowo zainstalowaną kartę dźwiękową.

[edytuj] Proces syntezy mowy TTS (ang. Text To Speech)

Obecnie najbardziej upowszechnionym systemem syntezy mowy jest TTS (z ang. text to speech tekst do mowy). Dzielimy go na dwa główne etapy, składające się z wielu pośrednich kroków, wymagających sporej wiedzy lingwistycznej i matematycznej. W pierwszym etapie program wydobywa z wprowadzonej frazy jak największą ilość informacji lingwistycznych - stara się zrozumieć tekst. Etap ten nazywany jest przetwarzaniem języka naturalnego - NLP (ang. Natural Language Processing).

W etapie NLP wyróżniamy następujące działania

analiza tekstu
transkrypcja fonetyczna
generowanie prozodii
wysłanie danych do DSP

Na podstawie zdobytych informacji następuje synteza dźwiękowej frazy - jest to etap cyfrowego przetwarzania sygnału DSP (ang. Digital Signal Processing).

Na etapie DSP zachodzą takie procesy jak

odbiór fonemów i prozodii z etapu NLP
dekodowanie / dekompresja segmentów (dzięki bazie segmentów)
dopasowanie prozodii
konkatenacja, czyli łączenie segmentów
synteza sygnału
mowa

[edytuj] Rodzaje syntezy sygnału mowy

Niektóre syntezatory korzystają z alofonicznej metody syntezy mowy. Polega ona na składaniu potrzebnych słów z dźwięków elementarnych, odpowiadających mniej więcej pojedynczym literom alfabetu. Każdy z dźwięków zapamiętywany jest w pamięci komputera i w odpowiedniej chwili i kolejności zostaje odtworzony. Metoda wymaga dużych mocy obliczeniowych komputera a efekt końcowy jest trochę mechaniczny.

Drugą metodą jest metoda konkatencyjna. Polega na nagraniu dużej bazy prawdziwego głosu lektora (tzw. baza segmentów), jej oznaczeniu i przetworzeniu, a następnie w procesie syntezy mowy wybieraniu, modyfikowaniu oraz składaniu sygnału mowy z fragmentów wcześniejszych nagrań. Technika ta pozwala na uzyskanie mowy najbardziej naturalnej.

[edytuj] Firmy, oraz przykładowe produkty branży syntezy mowy

SynTalk - jeden z pierwszych syntezatorów mowy polskiej
Drive(syntezator mowy) - grupa programistyczna programu Lektor (syntezator mowy)
DANT - syntezator mowy polskiej
Powiedz - syntezator mowy polskiej dla środowiska Linux
ALTIX - zajmujący się technologia dla niewidomych i słabo widzących
CNIN - Centrum Komputerowe dla Studentów Niewidomych i Niepełnosprawnych dostarczające m.in. oprogramowania i sprzętów syntezujących mowę
Synteza mowy -darmowy Serwer Syntezy Mowy WP działający jako wtyczka z programami np. Spik, WPKontakt
Ivo Software - Polski komercyjny producent oprogramowania syntezującego mowę
ECE firma produkująca sprzętowe syntezatory mowy
Scansoft - zagraniczna firma, twórca standardu Realspeak, na którym opierają się niektóre polskie syntezatory
Acapela-group - zagraniczna grupa programistyczna dostarczająca serwery naturalnej mowy, w tym i polskiej
MBROLA - akademicki projekt międzynarodowej syntezy mowy
Blazie - zagraniczna firma oferująca rozwiązania syntezy mowy Braill to Speach
Syntezator Konkatenacyjny ZF PAN - pierwszy polski syntezator, powstały w poznańskim Zakładzie Fonetyki Akustycznej , Polskiej Akademii Nauk, oparty o syntezator formantowy MEA 8000

Kategoria: Programowanie

We provide Linux to the World

Synteza mowy

Z Wikipedii

Spis treści

[edytuj] Sprzęt

[edytuj] Synteza komputerowa

[edytuj] Proces syntezy mowy TTS (ang. Text To Speech)

[edytuj] Rodzaje syntezy sygnału mowy

[edytuj] Firmy, oraz przykładowe produkty branży syntezy mowy

Views

nawigacja

zmiany

dla edytorów

Szukaj

W innych językach