Rozpoznawanie mowy

Z Wikipedii

To jest tylko zalążek artykułu związanego z informatyką. Jeśli potrafisz, rozbuduj go.

Rozpoznawanie mowy to technologia pozwalająca komputerowi wyposażonemu w urządzenie do próbkowania dźwieku (np. karta dźwiękowa z mikrofonem) interpretować mowę ludzką, na przykład, do celów transkrypcji lub jako alternatywna metoda interakcji z komputerem. Wyróżniamy kilka rodzajów rozpoznawania mowy: rozpoznawanie pojedynczych fonemów, rozpoznawanie izolowanych słów, rozpoznawanie łączonych słów oraz rozpoznawanie mowy ciągłej.

[edytuj] Koszty obliczeniowo-pamięciowe

Algorytmy rozpoznawania mowy ciągłej na poziomie zbliżonym do „zdolności ludzkich” wymagają pamięci komputerowej o dużej pojemności^[1]. Dlatego też wytwarza się systemy jedno-dziedzinowe, bądź użytkownik ma możliwość dostrojenia parametrów poprzez moduły uczenia maszynowego, w telefonach komórkowych nierzadko stosuje się również wysyłanie wstępnie przetworzonych danych do pomocniczej obróbki na serwerze zewnętrznym^[2], niedogodność jest niezauważalna dla użytkownika.

[edytuj] Zastosowania

Sterowanie - dedykowane silniki nie wymagają zaawansowanych cech jak przełączanie kontekstu, a z powodu ubogich kilku/kilkunastowyrazowych słowników nie występuje tu problem ujednoznaczniania w środowiskach, w których sygnał mowy jest zakłócony, dlatego też wymagają one znacznie mniej zasobów niż algorytmy rozpoznawania mowy ciągłej.
- w przypadku komputera PC - posiadającego różnorodne kanały komunikacji z użytkownikiem - sterowanie głosem wykorzystywane jest najczęściej przez osoby niepełnosprawne, dla których inne interfejsy interakcji z urządzeniem są niedostępne,
- w urządzeniach - o znacznej miniaturyzacji, przez co ubogich w interfejsy interakcji - proste polecenia głosowe znacznie uefektywniają ich obsługę.
Transkrypcja mowa ciągła-tekst - algorytmy:
- dziedzinowe - o ograniczonym słowniku,
- całościowe - bardziej zaawansowane.

[edytuj] Standaryzacje międzynarodowe

Trwają prace standaryzacyjne jednolitych interfejsów programistycznych (API) oraz języków opisu danych wejściowych dla silników rozpoznawania mowy. Następujące instytucje opracowują własne rozwiązania w tym zakresie, w nawiasach podano numer aktualnej wersji oraz rok wydania.

Microsoft:

SAPI - interfejs programistyczny (5.3 z r. 2005 - w Longhorn, oficjalne wydanie 2006/2007 - w Windows Vista)

Sun Microsystems:

JSAPI - interfejs programistyczny (1.0 z r. 1998, wersja 2.0-beta wciąż oczekuje na zatwierdzenie)
JSGF - język specyfikacji gramatyki

W3C:

PLS - język specyfikacji wymowy (1.0 oczekuje na zatwierdzenie),
VoiceXML - język specyfikacji dialogu głosowego człowiek-komputer (2.1 z r. 2007),
SISR - język semantycznego znakowania gramatyki (1.0 z r. 2007),
SRGS - język specyfikacji gramatyki (oparty na XML lub BNF) (1.0 z r. 2004),
SLM(N-gram)S -język specyfikacji stochastyczengo modelu języka (roboczy szkic z r. 2001),
NLSML - język specyfikacji interpretacji semantycznej mowy (1.0-beta z r. 2000).

[edytuj] Rozpoznawanie mowy w Polsce

Prace badawcze i wdrożenia:

Ogólnopolski projekt^[3] prowadzony jest przez, podległe MSWiA, służby bezpieczeństwa publicznego we współpracy z uczelniemi wyższymi^[4] w ramach Polskiej Platformy Bezpieczeństwa Wewnętrznego. Przetwarzanie mowy występuje docelowo w dwóch (S3, S8)^[5] z ośmiu funkcjonalnych modułów zintegrowanego systemu wsparcia zarządzania bezpieczeństwem i przeciwdziałania przestępczości w Unii Europejskiej,
Instytut Monitorowania Mediów^[6] ^[7] wdrożył system umożliwiający wyszukiwanie felietonów na podstawie słów kluczowych.

[edytuj] Produkty dla komputerów PC

Oprogramowanie FLOSS
- Prototypowe
  - Sphinx,
  - Julius/Julian.
- Użytkowe (Linux)
  - XVoice,
  - FreeSpeech.
„Pudełkowe”
- Dragon Naturally Speaking,
- Via Voice,
- Loquendo.

[edytuj] Zobacz też

Przypisy

↑ CHANDRA, DHRUBA "Speech Recognition Co-Processor" strona 16., North Carolina 2007
↑ The Inquirer, 7 lutego, 2007
↑ Laboratorium Technologii Języka i Mowy
↑ Technologie przetwarzania oraz rozpoznawania informacji słownych w systemach bezpieczeństwa wewnętrznego
↑ Koncepcja PBW (...) w ramach projektu „Nowoczesne metody naukowego wsparcia zarządzania bezpieczeństwem publicznym w Unii Europejskiej”, Poznań, 2005
↑ Informacja prasowa IMM Warszawa, 24 października 2006
↑ BiznesNet

We provide Linux to the World

Rozpoznawanie mowy

Z Wikipedii

Spis treści

[edytuj] Koszty obliczeniowo-pamięciowe

[edytuj] Zastosowania

[edytuj] Standaryzacje międzynarodowe

[edytuj] Rozpoznawanie mowy w Polsce

[edytuj] Produkty dla komputerów PC

[edytuj] Zobacz też

Przypisy

Views

nawigacja

zmiany

dla edytorów

Szukaj

W innych językach