Vérifié contenu

La synthèse vocale

Sujets connexes: Logiciel

Renseignements généraux

SOS Enfants produite ce site pour les écoles ainsi que ce site de vidéo sur l'Afrique . Cliquez ici pour en savoir plus sur le parrainage d'enfants.

Stephen Hawking est l'une des personnes les plus célèbres en utilisant la synthèse de la parole pour communiquer

La synthèse vocale est la production artificielle de l'homme discours. Un système informatique utilisé à cet effet est appelé un synthétiseur de parole, et peut être mis en œuvre en logiciel ou produits de quincaillerie. Un texte-parole (TTS) système convertit le texte normal du langage dans le langage; d'autres systèmes rendent représentations linguistiques symboliques comme transcriptions phonétiques dans la parole.

Parole synthétisée peut être créée par concaténation de morceaux de parole enregistrée qui sont stockés dans un base de données. Les systèmes diffèrent par la taille des unités de parole stockés; un système qui stocke téléphones ou diphones offre la plus large gamme de sortie, mais peuvent manquer de clarté. Pour les domaines d'utilisation spécifiques, le stockage des mots ou des phrases entières permet pour la sortie de haute qualité. En variante, un synthétiseur peut comporter un modèle de la conduit vocal et d'autres caractéristiques de la voix humaine pour créer une sortie vocale complètement "synthétique".

La qualité d'un synthétiseur de parole est déterminé par sa similitude avec la voix humaine et par son aptitude à être compris. Un programme intelligible text-to-speech permet aux personnes déficiences visuelles ou troubles de lecture pour écouter des œuvres écrites sur un ordinateur à la maison. Beaucoup de systèmes d'exploitation de l'ordinateur ont inclus des synthétiseurs vocaux depuis le début des années 1990.

Vue d'ensemble d'un système TTS typique

Un système texte-parole (ou «moteur») est composé de deux parties: une frontal et un back-end. Le front-end a deux tâches principales. Premièrement, il convertit le texte brut contenant des symboles comme les numéros et abréviations en l'équivalent des mots écrits-out. Ce processus est souvent appelé la normalisation de texte, de pré-traitement, ou tokenization. Le front-end attribue ensuite transcriptions phonétiques à chaque mot, et divise et marque le texte dans unités prosodiques, comme phrases, clauses et phrases. Le processus d'attribution des transcriptions phonétiques à mots est appelé texte-phonème ou conversion graphème-phonème. Transcriptions phonétiques et prosodiques informations constituent ensemble la représentation linguistique symbolique qui est sortie par le front-end. L'arrière-plan, souvent désigné sous le synthétiseur -Ensuite convertit la représentation symbolique linguistique en son. Dans certains systèmes, cette partie comprend le calcul de la prosodie cible (pas de contour, durées phonèmes), qui est ensuite imposé sur le discours de sortie.

Histoire

Bien avant électronique traitement du signal a été inventé, il y avait ceux qui ont essayé de construire des machines pour créer la parole humaine. Certaines légendes début de l'existence de «têtes qui parlent» impliqués Gerbert d'Aurillac (d. 1003 AD), Albertus Magnus (1198-1280), et Roger Bacon (1214-1294).

En 1779, le Danois Christian Kratzenstein scientifique, travaillant à la Académie des sciences de Russie, les modèles construits de l'humain conduit vocal qui pourrait produire les cinq longues voyelles sons (en Notation alphabet phonétique international, ils sont [A], [E], [i], [o] et [u]). Ceci a été suivi par la soufflet actionné " Machine vocal acoustique-mécanique »par Wolfgang von Kempelen de Presbourg , la Hongrie , décrit dans un document de 1791. Cette machine a ajouté modèles de la langue et des lèvres, lui permettant de produire des consonnes et voyelles. En 1837, Charles Wheatstone a produit une "machine parlante" basé sur la conception de von Kempelen, et en 1857, M. Faber a construit le "Euphonia". La conception de Wheatstone a été ressuscité en 1923 par Paget.

Dans les années 1930, De Bell Labs a développé le vocoder, qui a analysé automatiquement la parole dans son ton et résonances fondamentale. De son travail sur le vocodeur, Homer Dudley développé un synthétiseur vocal manuellement clavier fonctionnant appelé Le Voder (Voice Demonstrator), qui il expose à la 1939 Exposition universelle de New York.

Le la reproduction du motif a été construit par Dr Franklin S. Cooper et ses collègues Laboratoires Haskins à la fin des années 1940 et achevé en 1950. Il ya eu plusieurs versions différentes de ce périphérique matériel mais un seul survit actuellement. La machine convertit des photos des modèles acoustiques de la parole sous la forme d'un spectrogramme en son. En utilisant ce dispositif, Alvin Liberman et ses collègues ont pu découvrir indices acoustiques pour la perception de segments phonétiques (consonnes et voyelles).

Systèmes dominants dans les années 1980 et 1990 ont été le système MITalk, basé en grande partie sur le travail de Dennis Klatt au MIT, et le système Bell Labs; ce dernier a été l'un des premiers systèmes indépendants de la langue multilingues, faisant largement appel méthodes de traitement du langage naturel.

Les premiers synthétiseurs électroniques de la parole sonnait robotique et étaient souvent à peine intelligible. La qualité de la parole synthétisée a cessé de se améliorer, mais la production de systèmes de synthèse de la parole contemporaines est encore clairement distinguée de la parole humaine réelle.

Comme le rapport qualité-prix provoque des synthétiseurs vocaux pour devenir moins cher et plus accessible à la population, plus de gens vont bénéficier de l'utilisation de programmes text-to-speech.

Appareils électroniques

Les premiers systèmes de synthèse vocale sur ordinateur ont été créés dans les années 1950. Le premier système général anglais text-to-speech a été développé par Noriko Umeda et al. En 1968 au Laboratoire électrotechnique, Japon. En 1961, le physicien John Larry Kelly, Jr et collègue Louis Gerstman utilisé un IBM 704 ordinateur pour synthétiser la parole, un événement parmi les plus importants dans l'histoire de Bell Labs. Enregistreur de voix du synthétiseur de Kelly ( vocodeur) recréé la chanson " Daisy Bell », avec accompagnement musical de Max Mathews. Par coïncidence, Arthur C. Clarke rendait visite à son ami et collègue John Pierce à l'installation de Bell Labs Murray Hill. Clarke a été tellement impressionné par la démonstration qu'il a utilisé dans la scène culminante de son scénario de son roman 2001: A Space Odyssey, où le HAL 9000 ordinateur chante la même chanson comme il est mis à dormir par l'astronaute Dave Bowman. Malgré le succès de la synthèse de la parole purement électronique, la recherche est toujours en cours sur des synthétiseurs vocaux mécaniques.

L'électronique de poche présentant la synthèse de la parole ont commencé à émerger dans les années 1970. L'un des premiers a été la Telesensory Systems Inc. (TSI) Discours + calculatrice portable pour les aveugles en 1976. D'autres dispositifs ont été produits principalement à des fins éducatives, telles que Speak and Spell, produit par Texas Instruments en 1978. Fidelity a publié une version en parlant de son ordinateur d'échecs électronique en 1979. Le premier jeu vidéo à présenter la synthèse de la parole était le 1980 Shoot 'em up jeu d'arcade, Stratovox, à partir de Sun Electronics. Un autre exemple précoce était la version arcade de Berzerk, publié la même année. Le premier multi-joueurs jeu électronique en utilisant la synthèse vocale était Milton Milton Bradley Company, qui a produit le dispositif en 1980.

technologies de Synthétiseur

Les qualités les plus importantes d'un système de synthèse de la parole sont naturel et intelligibilité. Naturalité décrit comment de près la sortie ressemble à la parole humaine, tandis que l'intelligibilité est la facilité avec laquelle la sortie est entendu. Le synthétiseur vocal idéal est à la fois naturelle et intelligible. systèmes de synthèse de la parole tentent généralement de maximiser les deux caractéristiques.

Les deux principales technologies pour générer des formes d'ondes vocales synthétiques sont la synthèse et concaténative synthèse formant. Chaque technologie a ses forces et faiblesses, et les utilisations prévues d'un système de synthèse sera généralement de déterminer l'approche qui est utilisée.

Synthèse Concatenative

Concatenative synthèse est basée sur la concaténation (ou enchaîner) de segments de parole enregistrée. Généralement, la synthèse par concaténation produit le discours le plus sonorité naturelle synthétisée. Toutefois, les différences entre les variations naturelles de la parole et de la nature des techniques automatisées pour segmenter les formes d'onde aboutissent parfois à des défauts audibles dans la sortie. Il existe trois principaux sous-types de synthèse par concaténation.

la synthèse de sélection de l'unité

la synthèse de sélection de l'unité utilise grande bases de données de parole enregistrée. Lors de la création de bases de données, chaque énonciation enregistré est segmenté en une partie ou toutes les caractéristiques suivantes: individuel téléphones, diphones, demi-téléphones, syllabes, morphèmes, mots, phrases, et phrases. Typiquement, la division en segments est fait en utilisant un spécialement modifiés reconnaissance de la parole réglé sur un mode "forcé d'alignement" avec une correction manuelle par la suite, en utilisant des représentations visuelles telles que la forme d'onde et spectrogramme. Une index des unités dans la base de données de la parole est alors créé sur la base de segmentation et acoustiques paramètres comme la fréquence fondamentale ( Pitch), durée, position dans la syllabe, et voisins téléphones. À l'exécution, l'énoncé cible souhaité est créé en déterminant la meilleure chaîne d'unités de candidats de la base de données (sélection de l'unité). Ce processus est généralement obtenue en utilisant un spécialement pondéré arbre de décision.

Choix de l'unité fournit le plus grand naturel, car il ne se applique qu'à une petite quantité de traitement numérique du signal (DSP) à la parole enregistrée. DSP rend souvent la parole son enregistré moins naturel, bien que certains systèmes utilisent une petite quantité de traitement du signal au point de concaténation pour lisser la forme d'onde. La sortie de meilleurs systèmes unité de sélection est souvent impossible de distinguer les voix humaines réelles, en particulier dans des contextes pour lesquels le système TTS a été à l'écoute. Cependant, la naturalité maximale exigent généralement des bases de données de la parole en unités de sélection pour être très grand, dans certains systèmes, allant dans le gigaoctets de données enregistrées, représentant des dizaines d'heures de parole. En outre, des algorithmes de sélection de l'unité ont été connus pour sélectionner des segments d'un endroit qui se traduit par moins de synthèse idéale (par exemple mots mineures deviennent pas clair), même si un meilleur choix existe dans la base de données. Récemment, des chercheurs ont proposé divers procédés automatisés pour détecter des segments non naturelles dans l'unité de sélection des systèmes de synthèse de la parole.

synthèse de Diphone

synthèse de Diphone utilise une base de données de parole minimal contenant toutes les diphones (transitions son-son) survenant dans une langue. Le nombre de diphones dépend de la phonotactique de la langue: par exemple, espagnol a environ 800 diphones et allemande environ 2500. Dans la synthèse de diphones, un seul exemple de chaque diphone est contenue dans la base de données de la parole. Lors de l'exécution, la cible la prosodie d'une phrase se superpose à ces unités minimales au moyen de des techniques de traitement de signaux numériques tels que un codage prédictif linéaire, PSOLA ou MBROLA. synthèse de Diphone souffre des défauts sonores de synthèse par concaténation et la nature robotique à consonance de synthèse de formants, et a quelques-uns des avantages de l'approche soit autre que la petite taille. En tant que tel, son utilisation dans des applications commerciales est en baisse, même si elle continue d'être utilisé dans la recherche parce qu'il ya un certain nombre de disponibles gratuitement implémentations logicielles.

La synthèse spécifique à un domaine

Mots et des phrases concatène de synthèse spécifiques au domaine préenregistré pour créer énoncés complets. Il est utilisé dans des applications où la variété des textes la sortie de volonté du système est limitée à un domaine particulier, comme les annonces d'horaire de transit ou des rapports météorologiques. La technologie est très simple à mettre en œuvre, et a été en usage commercial pendant une longue période, dans des dispositifs comme parler des horloges et des calculatrices. Le niveau de naturalité de ces systèmes peut être très élevé en raison de la variété des types de phrases est limitée, et ils répondent de manière efficace la prosodie et l'intonation des enregistrements originaux.

Étant donné que ces systèmes sont limités par les mots et les phrases dans leurs bases de données, ils ne sont pas à usage général et ne peuvent synthétiser les combinaisons de mots et de phrases avec lesquelles ils ont été préprogrammés. Le mélange des mots dans la langue naturellement parlé mais peut encore causer des problèmes à moins que les nombreuses variantes sont prises en compte. Par exemple, dans dialectes non-rhotic d'anglais le «R» dans des mots comme "clair" / klɪə / ne est généralement prononcée lorsque le mot suivant a une voyelle que sa première lettre (par exemple "effacer" est réalisé comme / ˌklɪəɾʌʊt /). De même, en français , de nombreuses consonnes finales deviennent plus silencieuse si elle est suivie par un mot qui commence par une voyelle, un effet appelé liaison. Cette alternance ne peut être reproduit par un système de mot concaténation simple, qui nécessite une complexité supplémentaire pour être contextuelle.

Formant synthèse

Formant la synthèse ne utilise pas d'échantillons de parole droits à l'exécution. Au lieu de cela, la sortie de parole synthétisée est créée en utilisant la synthèse additive et un modèle acoustique ( la synthèse de modélisation physique). Des paramètres tels que fréquence fondamentale, voicing, et les niveaux de bruit varient au fil du temps pour créer un forme d'onde de parole artificielle. Cette méthode est parfois appelée la synthèse fondé sur des règles; Cependant, de nombreux systèmes concaténatives ont également des composants fondés sur des règles. Beaucoup de systèmes basés sur la technologie de synthèse formant génèrent artificielle, robotique discours à consonance qui ne seraient jamais être confondu avec la parole humaine. Cependant, la naturalité maximale ne est pas toujours l'objectif d'un système de synthèse de la parole, et les systèmes de synthèse de formants des avantages par rapport aux systèmes concaténation. Formant discours synthétisé peut être fiable intelligible, même à des vitesses très élevées, en évitant les pépins acoustiques qui affligent couramment systèmes concaténation. Haut débit parole synthétisée est utilisé par les malvoyants pour naviguer rapidement ordinateurs en utilisant une lecteur d'écran. Formant synthétiseurs sont généralement plus petites que les systèmes concaténatives programmes parce qu'ils ne ont pas une base de données d'échantillons de parole. Ils peuvent donc être utilisés dans systèmes embarqués, où mémoire et alimentation du microprocesseur sont particulièrement limitée. Parce que les systèmes à base-formants ont un contrôle complet de tous les aspects de la parole de sortie, une grande variété de prosodies et intonations peuvent être sortis, pas seulement des questions de transport et de déclarations, mais une variété d'émotions et de tons de voix.

Des exemples de non-temps réel, mais le contrôle de l'intonation très précise dans la synthèse de formant comprennent le travail réalisé dans les années 1970 pour le Texas Instruments jouet Speak and Spell, et au début des années 1980 Sega machines arcade et dans de nombreux Atari, Inc. jeux d'arcade en utilisant le TMS5220 LPC Chips. Création d'intonation appropriée pour ces projets était laborieux, et les résultats doivent encore être compensée par temps réel text-to-speech interfaces.

La synthèse articulatoire

La synthèse articulatoire se réfère à des techniques de calcul pour synthèse de la parole basée sur des modèles de l'humain tractus vocal et les processus d'articulation qui s'y produisent. Le premier synthétiseur articulatoire régulièrement utilisé pour des expériences de laboratoire a été développé à Laboratoires Haskins au milieu des années 1970 par Philip Rubin, Tom Baer, et Paul Mermelstein. Ce synthétiseur, connu sous le nom ASY, a été basée sur des modèles de voies vocales développées au Bell Laboratories dans les années 1960 et 1970 par Paul Mermelstein, Cecil Coker, et ses collègues.

Jusqu'à récemment, les modèles de synthèse articulatoire ne ont pas été intégrées dans les systèmes de synthèse vocale commerciaux. Une exception notable est le Système basé sur NeXT initialement développé et commercialisé par Trillium Son Research, une société spin-off de la Université de Calgary, où une grande partie de la recherche initiale a été effectuée. Après la disparition des diverses incarnations de NeXT (commencé par Steve Jobs à la fin des années 1980 et a fusionné avec Apple Computer en 1997), le logiciel Trillium a été publié sous la GNU General Public License, avec la poursuite des travaux que gnuspeech. Le système, d'abord commercialisé en 1994, assure la conversion complète en fonction articulatoire-text-to-speech aide d'un guide d'onde ou ligne de transmission analogique des voies orales et nasales humaines contrôlées par "modèle de région distincte" de Carré.

La synthèse à base de HMM

Synthèse à base de HMM est un procédé de synthèse basé sur modèles de Markov cachés, aussi appelés statistique paramétrique Synthèse. Dans ce système, la spectre de fréquence ( tractus vocal), fréquence fondamentale (en vocal), et la durée ( la prosodie) de la parole sont modélisés simultanément par HMM. Discours formes d'ondes sont générées à partir HMM se sont basés sur la critère du maximum de vraisemblance.

Synthèse sinusoïdale

Synthèse sinusoïdale est une technique de synthèse de la parole par le remplacement du formants (principales bandes d'énergie) avec sifflets de son pur.

Défis

défis de normalisation du texte

Le processus de normalisation du texte est rarement simple. Textes sont pleins de hétéronymes, numéros , et abréviations qui exigent tous expansion dans une représentation phonétique. Il existe de nombreuses orthographes en anglais qui se prononcent différemment en fonction du contexte. Par exemple, "Mon dernier projet est d'apprendre à mieux projeter ma voix" contient deux prononciations de «projet».

La plupart text-to-speech (TTS) systèmes ne génèrent pas de représentations sémantiques de leurs textes d'entrée, comme des processus pour le faire ne sont pas fiables, bien compris, ou de calcul efficace. En conséquence, divers techniques heuristiques sont utilisées pour deviner la bonne façon de lever l'ambiguïté homographes, comme l'examen des mots voisins et l'utilisation des statistiques sur la fréquence d'occurrence.

Récemment systèmes TTS ont commencé à utiliser HMM (voir plus haut) pour générer "parties du discours" pour aider à lever l'ambiguïté homographes. Cette technique est très efficace pour de nombreux cas par exemple si «lire» devrait être prononcé comme «rouge» impliquant passé, ou comme "roseau" impliquant présent. Taux d'erreur lors de l'utilisation typiques HMM de cette façon sont généralement en dessous de cinq pour cent. Ces techniques fonctionnent également bien pour la plupart des langues européennes, même si l'accès aux corpus de formation requis est souvent difficile dans ces langues.

Décider comment convertir numéros est un autre problème qui TTS systèmes doivent faire face. Ce est un défi de programmation simple pour convertir un nombre en mots (au moins en anglais), comme "1325" devenir "1325". Cependant, les numéros se produisent dans de nombreux contextes différents; "1325" peut également être interprété comme "un trois deux cinq", "1325" ou "treize cent vingt-cinq". Un système de TTS peut souvent déduire comment développer un certain nombre basé sur des mots environnantes, des chiffres et des signes de ponctuation, et parfois le système fournit un moyen de spécifier le contexte si elle est ambiguë. Chiffres romains peuvent également être lus différemment selon le contexte. Par exemple, "Henry VIII" se lit comme "Henri VIII", tandis que "Chapitre VIII" se lit comme "Chapter Eight".

De même, les abréviations peuvent être ambigus. Par exemple, l'abréviation "en" pour "pouces" doit être différencié du mot «dans» et l'adresse "12 St John St." utilise la même abréviation pour les deux "Saint" et "Street". systèmes TTS avec extrémités avant intelligents peuvent faire des suppositions sur les abréviations ambiguës instruits, tandis que d'autres donnent le même résultat dans tous les cas, résultant en sorties absurdes (et parfois comiques), comme "co-opération" étant rendu par "fonctionnement de l'entreprise".

Défis texte-phonème

systèmes de synthèse vocale utilisent deux approches de base pour déterminer la prononciation d'un mot en fonction de son l'orthographe, un processus qui est souvent appelé texte-phonème ou graphème-phonème conversion ( phonème est le terme utilisé par les linguistes pour décrire les sons distinctifs dans une langue). L'approche la plus simple à la conversion texte-phonème est l'approche basée sur un dictionnaire, où un grand dictionnaire contenant tous les mots d'une langue et leurs prononciations correctes est stocké par le programme. Détermination de la prononciation correcte de chaque mot est une question de regarder jusqu'à chaque mot dans le dictionnaire et le remplacement de l'orthographe avec la prononciation spécifiée dans le dictionnaire. L'autre approche est basée sur des règles, dans laquelle les règles de prononciation sont appliqués aux termes de déterminer leurs prononciations en fonction de leurs orthographes. Ceci est similaire à la "sonder", ou phonétique synthétiques, approche de la lecture d'apprentissage.

Chaque approche a ses avantages et inconvénients. L'approche basée sur un dictionnaire est rapide et précise, mais échoue complètement si elle est donnée un mot qui ne est pas dans son dictionnaire. Comme dictionnaire taille augmente, il en va de l'encombrement de la mémoire du système de synthèse. D'autre part, l'approche à base de règles fonctionne sur ne importe quelle entrée, mais la complexité des règles pousse essentiellement que le système prend en compte les orthographes ou des prononciations irrégulières. (Considérez que le mot "de" est très commun en anglais, mais est le seul mot dans lequel la lettre "f" est prononcé [v].) En conséquence, presque tous les systèmes de synthèse de la parole utilisent une combinaison de ces approches.

Langues avec un Transparence orthographique ont un système d'écriture très régulier, et la prédiction de la prononciation des mots en fonction de leurs orthographes est assez réussi. systèmes de synthèse de la parole pour ces langues utilisent souvent la méthode basée sur des règles largement, le recours à des dictionnaires que pour ces quelques mots, comme les noms et les emprunts à l'étranger, dont les prononciations sont pas évident de leurs orthographes. D'autre part, les systèmes de synthèse vocale pour les langues comme l'anglais , qui ont des systèmes d'orthographe très irréguliers, sont plus susceptibles de compter sur des dictionnaires, et d'utiliser des méthodes basées sur des règles uniquement pour des mots inhabituels, ou des mots qui ne sont pas dans leurs dictionnaires.

défis de l'évaluation

L'évaluation cohérente des systèmes de synthèse de la parole peut être difficile en raison du manque de critères objectifs universellement reconnus d'évaluation. Différentes organisations utilisent souvent des données vocales différentes. La qualité des systèmes de synthèse de la parole dépend aussi dans une large mesure de la qualité de la technique de production (qui peut impliquer analogique ou un enregistrement numérique) et sur les installations utilisées pour rejouer le discours. L'évaluation des systèmes de synthèse de la parole a donc souvent été compromise par des différences entre les techniques de production et des installations de relecture.

Récemment, cependant, certains chercheurs ont commencé à évaluer les systèmes de synthèse de la parole en utilisant un ensemble de données de la parole commune.

Prosodics et contenu émotionnel

Une étude dans la revue Speech Communication par Amy Drahota et ses collègues du Université de Portsmouth, au Royaume-Uni , a rapporté que les auditeurs d'exprimer enregistrements pourraient déterminer, au mieux que les niveaux de hasard, si oui ou non l'orateur souriait. Il a été suggéré que l'identification des caractéristiques vocales qui signalent contenu émotionnel peut être utilisé pour aider à faire son discours synthétisé plus naturel.

Matériel dédié

Technologie tôt (Non disponible)

  • Votrax
    • SC-01A (de formants analogique) http://en.wikipedia.org/wiki/File:TextSpeak_Embedded_Text_to_Speech_on_a_Chip.jpg
    • SC-02 / SSI-263 / "Artic 263"
  • Instrumentation générale SP0256-AL2 (CTS256A-AL2)
  • National Semiconductor DT1050 Digitalker (Mozer - Forrest Mozer)
  • Silicon Systems SSI 263 (de formants analogique)
  • Texas Instruments LPC Discours Chips ** ** TMS5110A TMS5200
    • MSP50C6XX - Vendu à Sensorielle, Inc. en 2001

Actuel (à partir de 2013)

  • SpeakJet Magnevation (www.speechchips.com) TTS256 Loisir expérimentateur.
  • Epson S1V30120F01A100 (www.epson.com) IC DECTalk voix Basé, robotique, Eng / espagnol
  • Textspeak TTS-EM (www.textspeak.com) CI, modules et des enveloppes industrielles dans 24 langues. Sondage humaine, basée Phonème.

systèmes d'exploitation d'ordinateurs ou points de vente avec la synthèse vocale

Atari

On peut dire que le premier système d'expression intégré dans un système d'exploitation a été les 1400XL 1450XL / ordinateurs personnels conçu par Atari, Inc. utilisant la puce Votrax SC01 en 1983. La ordinateurs 1400XL / 1450XL utilisé une machine d'état finis pour permettre World Anglais Orthographe synthèse texte-parole. Malheureusement, le 1400XL / 1450XL ordinateurs personnels ne expédié en quantité.

Le Ordinateurs Atari ST ont été vendus avec "stspeech.tos" sur disquette.

Pomme

Le premier système d'expression intégré dans un système d'exploitation livré en quantité était Apple Computer s ' MacinTalk en 1984. Le logiciel a été autorisé à partir de 3e développeurs tiers Joseph Katz et Mark Barton (plus tard, SoftVoice, Inc.) et a été présenté lors de l'introduction de 1984 de l'ordinateur Macintosh. Depuis les années 1980 ordinateurs Macintosh offert texte à capacités vocales via le logiciel de MacinTalk. Au début des années 1990 d'Apple a élargi son système capacités d'offre large soutien text-to-speech. Avec l'introduction de plus rapides ordinateurs PowerPC ils ont inclus plus l'échantillonnage de la voix de qualité. Apple a également présenté reconnaissance de la parole dans ses systèmes qui ont fourni un jeu de commandes fluide. Plus récemment, Apple a ajouté voix à base d'échantillons. À partir comme une curiosité, le système vocal d'Apple Macintosh a évolué dans un programme entièrement pris en charge, PlainTalk, pour les personnes ayant des problèmes de vision. VoiceOver était pour la première fois en vedette dans Mac OS X Tiger (10.4). Pendant 10.4 (Tiger) et premières versions de 10.5 (Leopard) il n'y avait qu'une seule voix Livraison standard avec Mac OS X. A partir de 10.6 (Snow Leopard), l'utilisateur peut choisir parmi une liste large gamme de plusieurs voix. Voix VoiceOver disposent la prise de souffles réalistes de entre les phrases, ainsi que l'amélioration de la clarté au taux de lecture élevés plus PlainTalk. Mac OS X comprend également par exemple, un l'application en ligne de commande sur la base que convertit le texte en un discours audible. Le AppleScript addition d'étalon comprend une dire verbe qui permet à un script à utiliser l'une des voix installées et de contrôler la hauteur, débit de parole et la modulation du texte parlé.

La Pomme système d'exploitation iOS utilisé sur l'iPhone, iPad et iPod Touch utilise Synthèse vocale VoiceOver pour l'accessibilité. Certaines applications tierces offrent également la synthèse de la parole pour faciliter la navigation, la lecture des pages web ou traduire du texte.

AmigaOS

Le deuxième système d'exploitation avec des capacités de synthèse de la parole a été avancé AmigaOS, introduit en 1985. La synthèse vocale a été autorisé par Commodore International de SoftVoice, Inc., qui a également développé le MacinTalk système original text-to-speech. Il a présenté un système complet d'émulation de la voix, à la fois «stress» indicateur marqueurs voix masculines et féminines et, rendue possible par les fonctions avancées du Amiga audio matérielle chipset. Il a été divisé en un dispositif de narrateur et une bibliothèque de traducteur. Amiga Parlez Handler vedette un traducteur text-to-speech. AmigaOS considéré synthèse vocale un dispositif de matériel virtuel, afin que l'utilisateur pourrait même rediriger la sortie de la console à elle. Certains programmes Amiga, tels que traitement de texte, fait un large usage du système de la parole.

Microsoft Windows

Modernes de Windows systèmes de bureau peuvent utiliser SAPI 4 et SAPI 5 composants pour soutenir la synthèse de la parole et reconnaissance de la parole. SAPI 4.0 était disponible en option add-on pour Windows 95 et Windows 98. Windows 2000 ajouté Narrateur, un utilitaire text-to-speech pour les personnes qui ont des handicaps visuels. Les programmes tiers tels que CoolSpeech, Textaloud et Ultra Hal peut effectuer diverses tâches text-to-speech tels que la lecture du texte à haute voix d'un site Web spécifique, compte e-mail, document texte, le presse-papiers de Windows, le clavier de frappe de l'utilisateur, etc. ne sont pas tous les programmes peuvent utiliser la synthèse vocale directement. Certains programmes peuvent utiliser des plug-ins, des extensions ou des add-ons pour lire le texte à haute voix. Les programmes tiers sont disponibles qui peuvent lire le texte du presse-papiers du système.

Microsoft Speech Server est un ensemble basé sur le serveur pour la synthèse vocale et de reconnaissance. Il est conçu pour une utilisation en réseau avec applications web et les centres d'appels.

Text-to-Speech (TTS) se réfère à la capacité des ordinateurs à lire le texte à haute voix. Un moteur TTS convertit le texte écrit à une représentation phonémique, puis convertit la représentation phonémique aux formes d'onde qui peuvent être produites comme des sons. moteurs TTS avec différentes langues, dialectes et vocabulaires spécialisés sont disponibles par le biais d'éditeurs tiers.

Androïde

Version 1.6 de Android a ajouté le support pour la synthèse vocale (TTS).

Internet

Actuellement, il existe un certain nombre de applications, plugins et gadgets qui peuvent lire des messages directement à partir d'un e-mail clients et des pages Web à partir d'un un navigateur Web ou Barre d'outils Google tels que Text-to-voix qui est un add-on pour Firefox . Certains spécialisée logiciel peut raconter Flux RSS. D'une part, RSS-narrateurs en ligne simplifient la livraison de l'information en permettant aux utilisateurs d'écouter leurs sources d'information préférées et de les convertir en podcasts . D'autre part, en ligne RSS-lecteurs sont disponibles sur presque ne importe quel PC connecté à Internet. Les utilisateurs peuvent télécharger des fichiers audio généré à des appareils portables, par exemple avec l'aide d' un podcast récepteur, et de les écouter en marchant, le jogging ou se rendre au travail.

Un nombre croissant d'Internet en fonction TTS est basé sur le Web technologies d'assistance, par exemple ' Browsealoud »d'une entreprise au Royaume-Uni et Readspeaker. Il peut fournir la fonctionnalité TTS à personne (pour des raisons d'accessibilité, de confort, de divertissement ou d'informations) ayant accès à un navigateur Web. Le but non lucratif projet Pediaphon a été créé en 2006 pour fournir une interface de TTS sur le Web similaire à Wikipedia .

D'autres travaux sont en cours dans le cadre de la Par le W3C W3C Audio groupe Incubateur avec la participation de la BBC et Google Inc.

Autres

  • Certains lecteurs de livres électroniques, comme le Amazon Kindle, Samsung E6, PocketBook Pro eReader, enTourage eDGe et le BeBook Neo.
  • Certains modèles de Texas Instruments ordinateurs domestiques produites en 1979 et 1981 ( Texas Instruments TI-99/4 et TI-99 / 4A) étaient capables de synthèse texte-phonème ou réciter des mots et des phrases complètes (text-to-dictionnaire), en utilisant un synthétiseur discours très populaire périphérique. TI a utilisé un propriétaire codec pour intégrer phrases parlées complets dans des applications, principalement des jeux vidéo.
  • IBM s ' OS / 2 Warp 4 inclus VoiceType, un précurseur de IBM ViaVoice.
  • Systèmes qui fonctionnent sur des systèmes de logiciels libres et open source, y compris Linux sont diverses et comprennent open-source des programmes comme le Festival du système de synthèse vocale qui utilise la synthèse basée diphone (et peut utiliser un nombre limité de Voix MBROLA), et gnuspeech qui utilise la synthèse articulatoire du Free Software Foundation.
  • Les entreprises qui ont développé des systèmes de synthèse de la parole, mais qui ne est plus dans cette affaire sont inclure meilleur discours (acheté par L & H), Eloquent Technology (acheté par SpeechWorks), Lernout & Hauspie (acheté par Nuance), SpeechWorks (acheté par Nuance), systèmes rhétoriques (achetés par Nuance).
  • Systèmes de navigation GPS produit par Garmin, Magellan, TomTom et d'autres utilisent la synthèse vocale pour la navigation automobile.

Synthèse vocale des langages de balisage

Un certain nombre de langages de balisage ont été établies pour la restitution de texte en un discours dans un Compatible XML Format. Le plus récent est Speech Synthesis Markup Language (SSML), qui est devenu un Recommandation du W3C en 2004. âgées synthèse vocale des langages de balisage inclut Java Discours Markup Language ( JSML) et SABLE. Bien que chacun de ces a été proposé comme une norme, aucun d'entre eux ont été largement adoptés.

La synthèse vocale des langages de balisage se distinguent des langues dialogue de balisage. VoiceXML, par exemple, comprend des balises liées à la reconnaissance vocale, la gestion du dialogue et de la numérotation à clavier, en plus du texte-parole balisage.

Applications

La synthèse vocale est depuis longtemps un élément vital outil de technologie d'assistance et de son application dans ce domaine est importante et généralisée. Il permet obstacles environnementaux à être enlevés pour les personnes ayant un large éventail de handicaps. L'application la plus longue a été dans l'utilisation de les lecteurs d'écran pour les personnes systèmes déficience visuelle, mais le texte-parole sont maintenant couramment utilisés par les personnes dyslexie et autres difficultés de lecture ainsi que par les enfants pré-alphabétisés. Ils sont également fréquemment utilisés pour aider les personnes à sévère troubles de la parole habituellement par une dédiée sortie vocale de l'aide de la communication.

techniques de synthèse vocale sont également utilisés dans des productions de divertissement tels que des jeux et des animations. En 2007, Animo Limited a annoncé l'élaboration d'un dossier de demande de logiciel basé sur son FineSpeech logiciel de synthèse vocale, explicitement orientée vers les clients dans les industries du divertissement, capable de générer la narration et de lignes de dialogue selon les spécifications de l'utilisateur. L'application a atteint la maturité en 2008, quand NEC Biglobe annoncé un service Web qui permet aux utilisateurs de créer des phrases à partir des voix de Code Geass: Lelouch des caractères Rebellion R2.

Au cours des dernières années, Text to Speech d'invalidité et des aides de communication handicapés sont devenus largement déployée dans Mass Transit. Text to Speech est également de trouver de nouvelles applications en dehors du marché de l'invalidité. Par exemple, la synthèse de la parole, associée à la reconnaissance vocale, permet une interaction avec des dispositifs mobiles par l'intermédiaire des interfaces de traitement du langage naturel.

Récupéré à partir de " http://en.wikipedia.org/w/index.php?title=Speech_synthesis&oldid=545503431"