Rozpoznawanie mowy
Z Wikipedii
Rozpoznawanie mowy to technologia pozwalająca komputerowi wyposażonemu w urządzenie do próbkowania dźwieku (np. karta dźwiękowa z mikrofonem) interpretować mowę ludzką, na przykład, do celów transkrypcji lub jako alternatywna metoda interakcji z komputerem. Wyróżniamy kilka rodzajów rozpoznawania mowy: rozpoznawanie pojedynczych fonemów, rozpoznawanie izolowanych słów, rozpoznawanie łączonych słów oraz rozpoznawanie mowy ciągłej.
Spis treści |
[edytuj] Koszty obliczeniowo-pamięciowe
Algorytmy rozpoznawania mowy ciągłej na poziomie zbliżonym do „zdolności ludzkich” wymagają pamięci komputerowej o dużej pojemności[1]. Dlatego też wytwarza się systemy jedno-dziedzinowe, bądź użytkownik ma możliwość dostrojenia parametrów poprzez moduły uczenia maszynowego, w telefonach komórkowych nierzadko stosuje się również wysyłanie wstępnie przetworzonych danych do pomocniczej obróbki na serwerze zewnętrznym[2], niedogodność jest niezauważalna dla użytkownika.
[edytuj] Zastosowania
- Sterowanie - dedykowane silniki nie wymagają zaawansowanych cech jak przełączanie kontekstu, a z powodu ubogich kilku/kilkunastowyrazowych słowników nie występuje tu problem ujednoznaczniania w środowiskach, w których sygnał mowy jest zakłócony, dlatego też wymagają one znacznie mniej zasobów niż algorytmy rozpoznawania mowy ciągłej.
- w przypadku komputera PC - posiadającego różnorodne kanały komunikacji z użytkownikiem - sterowanie głosem wykorzystywane jest najczęściej przez osoby niepełnosprawne, dla których inne interfejsy interakcji z urządzeniem są niedostępne,
- w urządzeniach - o znacznej miniaturyzacji, przez co ubogich w interfejsy interakcji - proste polecenia głosowe znacznie uefektywniają ich obsługę.
- Transkrypcja mowa ciągła-tekst - algorytmy:
- dziedzinowe - o ograniczonym słowniku,
- całościowe - bardziej zaawansowane.
[edytuj] Standaryzacje międzynarodowe
Trwają prace standaryzacyjne jednolitych interfejsów programistycznych (API) oraz języków opisu danych wejściowych dla silników rozpoznawania mowy. Następujące instytucje opracowują własne rozwiązania w tym zakresie, w nawiasach podano numer aktualnej wersji oraz rok wydania.
- SAPI - interfejs programistyczny (5.3 z r. 2005 - w Longhorn, oficjalne wydanie 2006/2007 - w Windows Vista)
- JSAPI - interfejs programistyczny (1.0 z r. 1998, wersja 2.0-beta wciąż oczekuje na zatwierdzenie)
- JSGF - język specyfikacji gramatyki
W3C:
- PLS - język specyfikacji wymowy (1.0 oczekuje na zatwierdzenie),
- VoiceXML - język specyfikacji dialogu głosowego człowiek-komputer (2.1 z r. 2007),
- SISR - język semantycznego znakowania gramatyki (1.0 z r. 2007),
- SRGS - język specyfikacji gramatyki (oparty na XML lub BNF) (1.0 z r. 2004),
- SLM(N-gram)S -język specyfikacji stochastyczengo modelu języka (roboczy szkic z r. 2001),
- NLSML - język specyfikacji interpretacji semantycznej mowy (1.0-beta z r. 2000).
[edytuj] Rozpoznawanie mowy w Polsce
Prace badawcze i wdrożenia:
- Ogólnopolski projekt[3] prowadzony jest przez, podległe MSWiA, służby bezpieczeństwa publicznego we współpracy z uczelniemi wyższymi[4] w ramach Polskiej Platformy Bezpieczeństwa Wewnętrznego. Przetwarzanie mowy występuje docelowo w dwóch (S3, S8)[5] z ośmiu funkcjonalnych modułów zintegrowanego systemu wsparcia zarządzania bezpieczeństwem i przeciwdziałania przestępczości w Unii Europejskiej,
- Instytut Monitorowania Mediów[6] [7] wdrożył system umożliwiający wyszukiwanie felietonów na podstawie słów kluczowych.
[edytuj] Produkty dla komputerów PC
- Oprogramowanie FLOSS
- Prototypowe
- Sphinx,
- Julius/Julian.
- Użytkowe (Linux)
- XVoice,
- FreeSpeech.
- Prototypowe
- „Pudełkowe”
- Dragon Naturally Speaking,
- Via Voice,
- Loquendo.
[edytuj] Zobacz też
Przypisy
- ↑ CHANDRA, DHRUBA "Speech Recognition Co-Processor" strona 16., North Carolina 2007
- ↑ The Inquirer, 7 lutego, 2007
- ↑ Laboratorium Technologii Języka i Mowy
- ↑ Technologie przetwarzania oraz rozpoznawania informacji słownych w systemach bezpieczeństwa wewnętrznego
- ↑ Koncepcja PBW (...) w ramach projektu „Nowoczesne metody naukowego wsparcia zarządzania bezpieczeństwem publicznym w Unii Europejskiej”, Poznań, 2005
- ↑ Informacja prasowa IMM Warszawa, 24 października 2006
- ↑ BiznesNet