Conteúdo verificado

Síntese de fala

Assuntos Relacionados: Software

Informações de fundo

Crianças SOS produziu este website para as escolas, bem como este site de vídeo sobre a África . Clique aqui para saber mais sobre apadrinhamento de crianças.

Stephen Hawking é uma das pessoas mais famosas usando a síntese de voz para se comunicar

Síntese de fala é a produção artificial do ser humano discurso. Um sistema de computador utilizado para este efeito é chamado de um sintetizador de voz, e pode ser implementado em ou software produtos de hardware. Um texto-para-voz (TTS) sistema converte texto em fala a linguagem normal; outros sistemas de renda representações linguísticas simbólicos como transcrições fonéticas em discurso.

Voz sintetizada pode ser criado pela concatenação partes de discursos gravados que estão armazenados em um banco de dados. Sistemas diferem no tamanho das unidades de fala armazenados; um sistema que armazena telefones ou difonemas oferece a maior gama de saída, mas pode faltar clareza. Para domínios específicos de uso, o armazenamento de palavras ou frases inteiras permite a saída de alta qualidade. Alternativamente, um sintetizador pode incorporar um modelo de trato vocal e outras características da voz humana para criar uma saída de voz completamente "sintética".

A qualidade de um sintetizador de voz é julgado pela sua semelhança com a voz humana e pela sua capacidade de ser entendido. Um programa inteligível text-to-speech permite que as pessoas com deficiência visual ou leitura deficiência para ouvir obras escritas em um computador doméstico. Muitos sistemas operacionais de computador têm incluído sintetizadores de voz desde o início da década de 1990.

Visão geral de um sistema típico TTS

Um sistema de texto-para-voz (ou "mecanismo") é composto de duas partes: uma front-end e um back-end. O front-end tem duas tarefas principais. Primeiro, ele converte o texto bruto contendo símbolos como números e as abreviaturas para o equivalente de palavras escritas-out. Este processo é muitas vezes chamado de normalização texto, pré-processamento, ou tokenization. O front-end, em seguida, atribui transcrições fonéticas para cada palavra, e divide e marca o texto unidades prosódicas, como frases, cláusulas, e frases. O processo de atribuição de transcrições fonéticas para palavras é chamado de texto-para-fonema ou grafema-fonema-to. Transcrições fonéticas e informações prosódia juntos compõem a representação linguística simbólica que é emitido pelo front-end. A parte traseira de ponta muitas vezes referida como o sintetizador -então converte a representação simbólica linguística em som. Em certos sistemas, esta parte compreende o cálculo de métrica do alvo (contorno passo, durações de fonemas), que é então aplicada à saída de fala.

História

Muito antes eletrônico processamento de sinal foi inventada, havia aqueles que tentaram construir máquinas para criar a fala humana. Algumas lendas iniciais da existência de "cabeças falantes" envolvidos Gerbert de Aurillac (d. 1003 AD), Albertus Magnus (1198-1280), e Roger Bacon (1214-1294).

Em 1779, o dinamarquês Christian Kratzenstein cientista, que trabalha no Academia Russa de Ciências, modelos construídos do ser humano trato vocal que poderia produzir os cinco longos vogal sons (em Notação alfabeto fonético internacional, eles são [A], [E], [i], [o] e [u]). Isto foi seguido pela fole operado " máquina de voz acústico-mecânico "por Wolfgang von Kempelen de Pressburg , Hungria , descrita em um artigo 1791. Esta máquina adicionado modelos da língua e dos lábios, o que lhe permite produzir consoantes , bem como vogais. Em 1837, Charles Wheatstone produziu uma "máquina falante" baseado no projeto de von Kempelen, e em 1857, M. Faber construiu o "Euphonia". O projeto de Wheatstone foi ressuscitada em 1923 por Paget.

Na década de 1930, Sino Labs desenvolveu o vocoder, que fala analisada automaticamente em seu tom fundamental e ressonâncias. A partir de seu trabalho no vocoder, Homer Dudley desenvolveu um sintetizador de voz manualmente-operado teclado chamado O voder (Voice Demonstrator), que expôs na 1939 Feira Mundial de Nova Iorque.

O Reprodução padrão foi construída por Dr. Franklin S. Cooper e seus colegas Haskins Laboratories no final de 1940 e concluída em 1950. Houve várias versões diferentes deste dispositivo de hardware, mas apenas um sobrevive atualmente. A máquina de imagens converte os padrões acústicos de fala na forma de um espectrograma de volta em som. Usando este dispositivo, Alvin Liberman e seus colegas foram capazes de descobrir pistas acústicas para a percepção de segmentos fonéticos (consoantes e vogais).

Sistemas dominantes nos anos 1980 e 1990 foram o sistema MITalk, baseado em grande parte no trabalho de Dennis Klatt no MIT, e do sistema de Bell Labs; o último foi um dos primeiros sistemas independentes da língua multilingues, fazendo uso extensivo de métodos de processamento de linguagem natural.

Sintetizadores início da fala eletrônicos soavam mecânicas e foram muitas vezes mal inteligível. A qualidade da voz sintetizada tem vindo a melhorar, mas a produção de sistemas de síntese de voz contemporâneos ainda se distingue claramente do discurso humano real.

Como o relação custo-desempenho faz com sintetizadores de voz para tornar-se mais barato e mais acessível às pessoas, mais pessoas irão se beneficiar do uso de programas de text-to-speech.

Dispositivos eletrônicos

Os primeiros sistemas de síntese de fala baseados em computador foram criadas no final de 1950. O primeiro sistema geral Inglês texto-para-voz foi desenvolvido por Noriko Umeda et ai., Em 1968 no Laboratório Electrotechnical, Japão. Em 1961, o físico John Larry Kelly, Jr e colega Louis Gerstman utilizado um IBM 704 computador para sintetizar a fala, um evento entre os mais proeminentes na história da Bell Labs. Sintetizador gravador de voz de Kelly ( vocoder) recriou a música " Daisy Bell ", com acompanhamento musical de Max Mathews. Coincidentemente, Arthur C. Clarke foi visitar seu amigo e colega John Pierce na instalação de Bell Labs Murray Hill. Clarke ficou tão impressionado com a demonstração de que ele usou na cena clímax de seu roteiro para sua novela 2001: Uma Odisséia no Espaço, onde o HAL computador 9000 canta a mesma canção como está sendo colocado para dormir pelo astronauta Dave Bowman. Apesar do sucesso da síntese de fala puramente eletrônico, a investigação ainda está sendo realizada em sintetizadores de voz mecânicos.

Eletrônicos portáteis que caracterizam a síntese de voz começaram a surgir na década de 1970. Um dos primeiros foi o Telesensory Systems Inc. (TSI) Discurso + calculadora portátil para cegos em 1976. Outros dispositivos foram produzidos principalmente para fins educacionais, tais como Fale & Feitiço, produzido por Texas Instruments em 1978. Fidelity lançou uma versão falando de seu computador de xadrez eletrônico, em 1979. O primeiro jogo de vídeo a característica de síntese de fala era de 1980 atire neles jogo de arcade, Stratovox, a partir de Sun Electronics. Outro exemplo foi o início de versão arcade de Berzerk, lançado no mesmo ano. O primeiro multi-jogador jogo eletrônico síntese usando voz era Milton de Milton Bradley Company, que produziu o dispositivo em 1980.

Tecnologias Sintetizador

As qualidades mais importantes de um sistema de síntese de voz são naturalidade e inteligibilidade. Naturalidade descreve como perto da saída soa como a fala humana, ao passo que a inteligibilidade é a facilidade com que a saída é compreendido. O sintetizador de fala ideal é natural e compreensível. Sistemas de síntese de voz geralmente tentam maximizar ambas as características.

As duas tecnologias principais para gerar formas de onda de fala sintetizada são síntese e concatenativa síntese da formante. Cada tecnologia tem pontos fortes e fracos, e as utilizações previstas de um sistema de síntese normalmente irá determinar qual abordagem é utilizada.

Síntese concatenativa

Concatenativa síntese é baseada na concatenação (ou encadeamento) de segmentos de fala gravada. Geralmente, a síntese concatenativa produz a voz sintetizada mais de sonoridade natural. No entanto, as diferenças entre as variações naturais na fala e da natureza das técnicas automatizadas para segmentar as formas de onda, por vezes, resultar em falhas audíveis na saída. Existem três principais sub-tipos de síntese concatenativa.

Síntese de selecção da unidade

Síntese seleção unidade utiliza grande bases de dados de fala gravada. Durante a criação do banco de dados, cada fala gravada é segmentado em alguns ou todos os seguintes: individual telefones, difonemas, meias-phones, sílabas, morfemas, palavras, frases, e frases. Tipicamente, a divisão em segmentos é feito utilizando um especialmente modificado reconhecedor de voz definido para um modo "alinhamento forçado" com alguma correção manual depois, usando representações visuais tais como a e da forma de onda espectrograma. Um índice das unidades na base de dados de voz é então criada com base nos parâmetros de segmentação e acústicos, como o frequência fundamental ( arremesso), duração, posição na sílaba, e vizinhos telefones. Em executar tempo, o enunciado alvo desejado é criado por determinar a melhor cadeia de unidades candidatos a partir do banco de dados (seleção da unidade). Este processo é tipicamente conseguida utilizando uma especialmente ponderada árvore de decisão.

A selecção da unidade fornece a maior naturalidade, porque só se aplica uma pequena quantidade de processamento de sinal digital (DSP) para a fala gravada. DSP muitas vezes faz discurso gravado soar menos natural, embora alguns sistemas usam uma pequena quantidade de processamento de sinal no ponto de concatenação para suavizar a forma de onda. A saída dos melhores sistemas de seleção de unidade é muitas vezes indistinguíveis de reais vozes humanas, especialmente em contextos em que o sistema TTS tem sido sintonizados. No entanto, no máximo naturalidade requerem tipicamente bases de dados de fala-selecção das unidades de ser muito grande, em alguns sistemas que vão para o gigabytes de dados gravados, o que representa dezenas de horas de discurso. Além disso, algoritmos de seleção de unidade têm sido conhecidos para selecionar segmentos de um lugar que resulta em menos de síntese ideal (por exemplo, palavras pequenas tornam-se claro), mesmo quando uma escolha melhor existe no banco de dados. Recentemente, pesquisadores propuseram vários métodos automatizados para detectar segmentos não naturais em sistemas de síntese de voz-selecção unidade.

Síntese diphone

Síntese diphone usa um banco de dados de fala mínimo contendo toda a difonemas (transições de som-para-som) que ocorrem em um idioma. O número de difonemas depende da fonotática da língua: por exemplo, o espanhol tem cerca de 800 difonemas e alemão sobre 2500. Em síntese diphone, apenas um exemplo de cada diphone está contida no banco de dados de fala. Em tempo de execução, o alvo prosódia de uma sentença é sobreposto a essas unidades mínimas por meio de técnicas de processamento digital de sinais, tais como codificação preditiva linear, PSOLA ou MBROLA. Síntese diphone sofre com as falhas sonoras de síntese concatenativa ea natureza robótica-som de síntese da formante, e tem algumas das vantagens de cada abordagem diferente do tamanho pequeno. Como tal, o seu uso em aplicações comerciais está a diminuir, embora continue a ser utilizado em pesquisa, porque existe um número de implementações de software disponíveis livremente.

Síntese específica de domínio

Palavras e frases de síntese concatena específicas de domínio pré-gravada para criar declarações completas. É utilizado em aplicações onde a variedade de textos a saída do sistema vontade é limitada a um determinado domínio, como anúncios de agendamento de trânsito ou previsões de tempo. A tecnologia é muito simples de implementar, e tem sido em uso comercial por um longo tempo, em dispositivos como falar relógios e calculadoras. O nível de naturalidade desses sistemas pode ser muito alta porque a variedade de tipos de frase é limitado, e eles coincidem com a prosódia e entonação das gravações originais.

Uma vez que estes sistemas estão limitados pelas palavras e frases na sua base de dados, que não são de uso geral e só pode sintetizar as combinações de palavras e frases com os quais tenham sido pré-programado. A mistura de palavras numa língua naturalmente falado no entanto ainda pode causar problemas, a menos que as muitas variações são tidas em conta. Por exemplo, em dialetos não-cirróticos de Inglês o "R" em palavras como "clear" / klɪə / normalmente só é pronunciada quando a seguinte palavra tem uma vogal como sua primeira carta (por exemplo, "limpar" é percebido como / ˌklɪəɾʌʊt /). Da mesma forma, em francês , muitas consoantes finais se tornar já não silencioso, se seguido de uma palavra que começa com uma vogal, um efeito chamado ligação. Este alternância não pode ser reproduzido por um sistema de palavra-concatenação simples, o que iria exigir uma complexidade adicional de ser sensível ao contexto.

Síntese Formant

Síntese Formant não usa amostras de fala humanos em tempo de execução. Em vez disso, a saída de voz sintetizada é criado usando síntese aditivo e um modelo acústico ( síntese de modelagem física). Parâmetros tais como a frequência fundamental, vozeamento, e níveis de ruído são variadas ao longo do tempo para criar uma forma de onda do discurso artificial. Este método é chamado por vezes, regras baseadas em síntese; no entanto, muitos sistemas de Concatenative também têm componentes baseados em regras. Muitos sistemas baseados na tecnologia de síntese da formante gerar artificial, robótica sonoridade discurso que nunca seria confundido com a fala humana. No entanto, máxima naturalidade nem sempre é o objetivo de um sistema de síntese de voz e sistemas de síntese de formantes têm vantagens sobre os sistemas de Concatenative. Voz sintetizada-Formant pode ser confiavelmente inteligível, mesmo em velocidades muito altas, evitando as falhas acústicas que comumente afligem sistemas Concatenative. Voz sintetizada de alta velocidade é utilizado por deficientes visuais para navegar rapidamente computadores usando uma leitor de tela. Sintetizadores de formantes são programas geralmente menores do que os sistemas de Concatenative porque eles não têm uma base de dados de amostras de fala. Eles podem, portanto, ser utilizados em sistemas embarcados, onde e memória de alimentação do microprocessador são especialmente limitados. Como os sistemas baseados em formantes tem o controle completo de todos os aspectos do discurso de saída, uma grande variedade de prosódias e entonações pode ser a saída, transmitindo não apenas perguntas e afirmações, mas uma variedade de emoções e tons de voz.

Exemplos de não-tempo-real, mas o controle entonação muito precisa em síntese formante incluem o trabalho realizado no final de 1970 para a Texas Instruments brinquedo Fale & Feitiço, e no início de 1980 Sega máquinas de arcade e em muitos Jogos de arcade Atari, Inc., usando o TMS5220 LPC Chips. Criando entonação adequada para esses projetos foi meticuloso, e os resultados ainda têm que ser acompanhado por em tempo real interfaces de text-to-speech.

Síntese articulatória

Síntese articulatória refere-se a técnicas computacionais para o discurso síntese com base em modelos do ser humano trato vocal e os processos de articulação que ocorrem lá. O primeiro sintetizador articulatório regularmente utilizado para experiências de laboratório foi desenvolvido no Haskins Laboratories em meados dos anos 1970 por Philip Rubin, Tom Baer, e Paul Mermelstein. Este sintetizador, conhecido como ASY, foi baseada em modelos desenvolvidos no trato vocal Laboratórios Bell em 1960 e 1970 por Paul Mermelstein, Cecil Coker, e colegas.

Até recentemente, os modelos de síntese articulatória não foram incorporados em sistemas de síntese de voz comerciais. Uma exceção notável é o Sistema baseado no NeXT originalmente desenvolvido e comercializado pela Trillium Som Research, uma empresa spin-off do Universidade de Calgary, onde grande parte da investigação original foi conduzida. Após o desaparecimento das várias encarnações do NeXT (iniciado por Steve Jobs no final de 1980 e se fundiu com a Apple Computer em 1997), o software Trillium foi publicado sob o Licença Pública Geral GNU, com trabalho contínuo como gnuspeech. O sistema, comercializado pela primeira vez em 1994, fornece a conversão à base articulatória completo text-to-speech usando um guia de ondas ou de linha de transmissão analógica das vias oral e nasal humana controlada pelo "modelo região distinta" da Carré.

Síntese baseada em HMM

Síntese baseada em HMM é um método de síntese com base em modelos ocultos de Markov, também chamado Statistical Parametric Síntese. Neste sistema, o espectro de frequências ( trato vocal), frequência fundamental (fonte vocal) e duração ( prosódia) da fala são modelados simultaneamente por HMMs. Discurso formas de onda são geradas a partir de HMMs-se com base na critério da máxima verossimilhança.

Síntese Sinewave

Síntese de onda sinusoidal é uma técnica para a síntese de voz, substituindo o formants (principais bandas de energia) com assobios tonais.

Desafios

Desafios de normalização de texto

O processo de normalização texto raramente é simples. Textos estão cheios de heterónimos, números , e abreviaturas que todos necessitam de expansão em uma representação fonética. Há muitas grafias em Inglês que são pronunciadas de forma diferente com base no contexto. Por exemplo, "Meu projeto mais recente é aprender a melhor forma de projetar minha voz" contém duas pronúncias de "projeto".

A maioria de texto em fala sistemas (TTS) não geram representações semânticas de seus textos de entrada, como processos para fazê-lo não são fiáveis, bem entendido, ou computacionalmente eficaz. Como um resultado, várias técnicas heurísticas são usadas para adivinhar a maneira correta de disambiguate homógrafos, como examinar palavras vizinhas e usando estatísticas sobre frequência de ocorrência.

Recentemente sistemas TTS começaram a usar HMMs (discutidas acima) para gerar "partes do discurso" para ajudar na eliminação de ambiguidades homógrafos. Esta técnica é muito bem sucedido em muitos casos, como se "ler" deve ser pronunciado como "vermelho", implicando tempo passado, ou como "cana", implicando tempo presente. Taxas de erro ao usar HMMs típicos desta forma são geralmente abaixo de cinco por cento. Essas técnicas também funcionam bem para a maioria das línguas europeias, embora o acesso a corpora formação exigida é freqüentemente difícil nessas línguas.

Decidir como converter números é outro problema que TTS sistemas têm de resolver. É um desafio de programação simples para converter um número em palavras (pelo menos em Inglês), como "1325" tornar-se "1325". No entanto, os números ocorrem em muitos contextos diferentes; "1325" também pode ser lido como "um três dois cinco", "1325" ou "mil e trezentos e vinte e cinco". Um sistema TTS muitas vezes pode inferir como expandir um número com base em palavras circundantes, números e pontuação, e, por vezes, o sistema fornece uma maneira de especificar o contexto se ele é ambíguo. Algarismos romanos também pode ser lido de forma diferente dependendo do contexto. Por exemplo, "Henry VIII" lê como "Henrique VIII", enquanto o "Capítulo VIII" lê como "Capítulo Oito".

De igual modo, as abreviaturas podem ser ambígua. Por exemplo, a abreviatura "in" para "polegadas" deve ser diferenciada da palavra "in" eo endereço "12 St John St." usa a mesma abreviatura para tanto "Santo" e "Street". Sistemas TTS com front-ends inteligentes podem fazer suposições sobre abreviaturas ambíguas educado, enquanto outros oferecem o mesmo resultado em todos os casos, resultando em saídas sem sentido (e às vezes cômicos), como "co-operação" que está sendo processado como "operação da empresa".

Text-to-fonema desafios

Sistemas de síntese de voz utilizar duas abordagens básicas para determinar a pronúncia de uma palavra com base na sua ortografia, um processo que é muitas vezes chamado de texto-para-fonema ou grafema-fonema para-conversão ( fonema é o termo usado pelos lingüistas para descrever sons distintos em um idioma). A abordagem mais simples para a conversão de texto-para-fonema é a abordagem baseada em dicionário, onde um grande dicionário contendo todas as palavras de uma língua e suas pronúncias corretas são armazenados pelo programa. Determinar a pronúncia correta de cada palavra é uma questão de olhar-se cada palavra no dicionário e substituindo a ortografia com a pronúncia especificado no dicionário. A outra abordagem é baseada em regras, no qual regras de pronúncia são aplicados às palavras de determinar as suas pronúncias com base em suas grafias. Isto é semelhante ao "sondar", ou método fônico, abordagem à leitura aprendizagem.

Cada abordagem tem vantagens e desvantagens. A abordagem baseada em dicionário é rápido e preciso, mas falhar completamente se for dada uma palavra que não está no seu dicionário. Como tamanho do dicionário cresce, o mesmo acontece com os requisitos de espaço de memória do sistema de síntese. Por outro lado, a abordagem baseada em regras funciona em qualquer de entrada, mas a complexidade das regras cresce substancialmente como o sistema leva em conta grafias irregulares ou pronúncia. (Considere-se que a palavra "de" é muito comum em Inglês, mas é a única palavra em que a letra "F" é pronunciada [v].) Como resultado, quase todos os sistemas de síntese de fala usar uma combinação destas abordagens.

Os idiomas com um fonêmica ortografia tem um sistema de escrita muito regular, ea previsão da pronúncia das palavras com base em suas grafias é muito bem sucedido. Sistemas de síntese de voz para tais idiomas costumam usar o método baseado em regras extensivamente, recorrer a dicionários apenas para aquelas poucas palavras, como nomes e empréstimos no exterior, cujas pronúncias não são óbvias a partir de suas grafias. Por outro lado, os sistemas de síntese de voz para línguas como o Inglês , que têm sistemas ortográficos extremamente irregulares, são mais propensos a confiar em dicionários, e usar métodos baseados em regras apenas para as palavras incomuns, ou palavras que não estão em seus dicionários.

Desafios de avaliação

A avaliação consistente dos sistemas de síntese de voz pode ser difícil devido à falta de critérios objectivos de avaliação universalmente acordados. Diferentes organizações costumam usar diferentes dados de fala. A qualidade dos sistemas de síntese de fala também depende, em grande medida, da qualidade da técnica de produção (que pode envolver análogo ou gravação digital) e sobre as instalações utilizadas para reproduzir a fala. Avaliando sistemas de síntese de fala, portanto, muitas vezes foi comprometido pelas diferenças entre as técnicas de produção e instalações de replay.

Recentemente, no entanto, alguns pesquisadores começaram a avaliar os sistemas de síntese de fala, utilizando um conjunto de dados de fala comum.

Prosodics e conteúdo emocional

Um estudo publicado na revista Comunicação Discurso de Amy Drahota e seus colegas da Universidade de Portsmouth, Reino Unido , informou que os ouvintes para Gravações de voz poderia determinar, ao melhor do que os níveis de oportunidade, ou não o orador estava sorrindo. Foi sugerido que a identificação das características vocais que sinalizam o conteúdo emocional pode ser usado para ajudar a fazer um som de fala sintetizada mais natural.

Hardware dedicado

Tecnologia cedo (Não disponível)

  • Votrax
    • SC-01A (formante analógico) http://en.wikipedia.org/wiki/File:TextSpeak_Embedded_Text_to_Speech_on_a_Chip.jpg
    • SC-02 / SSI-263 / "Artic 263"
  • General Instrument SP0256-AL2 (CTS256A-AL2)
  • National Semiconductor DT1050 Digitalker (Mozer - Forrest Mozer)
  • Silicon Sistemas SSI 263 (formante analógico)
  • Texas Instruments LPC Speech chips ** ** TMS5110A TMS5200
    • MSP50C6XX - vendido para Sensorial, Inc. em 2001

Corrente (a partir de 2013)

  • Magnevation SpeakJet (www.speechchips.com) TTS256 Hobby e experimentador.
  • Epson S1V30120F01A100 (www.epson.com) Baseado voz IC DECtalk, Robótica, Engenharia / Espanhol
  • Textspeak TTS-EM (www.textspeak.com) CIs, módulos e caixas industriais em 24 idiomas. Sonoridade Humano, Phoneme base.

Sistemas operacionais de computador ou estabelecimentos com síntese de fala

Atari

Possivelmente, o primeiro sistema de fala integrado numa sistema operacional foi o / 1450XL 1400XL computadores pessoais projetado por Atari, Inc. usando o chip Votrax SC01 em 1983. A computadores 1400XL / 1450XL usou uma máquina de estado finito para permitir Mundial Inglês Ortografia síntese text-to-speech. Infelizmente, o 1400XL / computadores pessoais 1450XL Nunca enviados em quantidade.

O Computadores Atari ST foram vendidos com "stspeech.tos" na disquete.

Maçã

O primeiro sistema de fala integrado numa sistema operacional que enviados em quantidade foi Apple Computer 's MacInTalk em 1984. O software foi licenciado de desenvolvedores do 3o partido Joseph Katz e Mark Barton (mais tarde, SoftVoice, Inc.) e foi apresentado durante a introdução do computador Macintosh de 1984. Desde os anos 1980 computadores Macintosh ofereceu texto para capacidades de fala através do software MacinTalk. No início de 1990 a Apple ampliou seu amplo apoio text-to-speech sistema capacidades oferta. Com a introdução dos computadores baseados em PowerPC mais rápidos eles incluíram maior amostragem de voz de qualidade. A Apple também apresentou reconhecimento de voz em seus sistemas que forneceram um conjunto de comandos de fluido. Mais recentemente, a Apple adicionou vozes baseados em amostras. Começando como uma curiosidade, o sistema de voz da Apple Macintosh evoluiu para um programa totalmente suportado, PlainTalk, para as pessoas com problemas de visão. VoiceOver foi pela primeira vez apresentado em Mac OS X Tiger (10.4). Durante 10.4 (Tiger) & primeiros lançamentos de 10.5 (Leopard), houve apenas uma voz padrão transporte com Mac OS X. Começando com 10.6 (Snow Leopard), o usuário pode escolher de uma lista ampla faixa de múltiplas vozes. VoiceOver vozes apresentam a tomada de respirações realistas sonoridade entre as frases, bem como uma maior clareza em altas taxas de leitura mais PlainTalk. Mac OS X também inclui digamos, um aplicativo de linha de comando com base que converte texto em fala audível. O AppleScript Padrão Adições inclui um dizer verbo que permite que um script para usar qualquer uma das vozes instaladas e para controlar o tom, velocidade da fala e modulação do texto falado.

A Maçã sistema operacional iOS usado no iPhone, iPad e iPod Touch usa VoiceOver síntese de voz para acessibilidade. Alguns aplicativos de terceiros também oferecem síntese de voz para facilitar a navegação, leitura de páginas da web ou traduzir o texto.

AmigaOS

O segundo sistema operacional com recursos de síntese de fala avançado foi AmigaOS, introduzido em 1985. A síntese de voz foi licenciada pela Commodore Internacional de SoftVoice, Inc., que também desenvolveu o sistema MacinTalk originais text-to-speech. Ele apresentava um sistema completo de emulação de voz, com ambos os sexos masculino e vozes femininas e "stress" marcadores indicadores, tornada possível por recursos avançados do Áudio hardware Amiga chipset. Foi dividido em um dispositivo narrador e uma biblioteca tradutor. Amiga Fale Handler contou com um tradutor de texto-para-voz. AmigaOS considerado Speech Synthesis um dispositivo de hardware virtual, de modo que o usuário pode até mesmo redirecionar a saída do console para ele. Alguns programas Amiga, como processadores de texto, fez uso extensivo do sistema de fala.

Microsoft Windows

Modernos do Windows sistemas de desktop pode usar 4 e SAPI SAPI 5 componentes para apoiar a síntese de voz e reconhecimento de fala. SAPI 4.0 estava disponível como um opcional add-on para Windows 95 e Windows 98. Windows 2000 adicionada Narrador, um utilitário text-to-speech para pessoas que têm deficiência visual. Programas de terceiros, tais como CoolSpeech, Textaloud e Ultra Hal pode executar várias tarefas text-to-speech, tais como a leitura de texto em voz alta de um site especificado, conta de email, documento de texto, a área de transferência do Windows, teclado digitação do usuário, etc. Nem todos os programas podem usar a síntese de voz diretamente. Alguns programas podem usar plug-ins, extensões ou complementos para ler o texto em voz alta. Programas de terceiros estão disponíveis que podem ler o texto da área de transferência do sistema.

Microsoft Speech Server é um pacote baseado em servidor para síntese de voz e reconhecimento. Ele é projetado para uso em rede com aplicações web e call centers.

Text-to-Speech (TTS) refere-se à capacidade dos computadores para ler o texto em voz alta. Um Mecanismo de TTS converte o texto escrito a uma representação fonêmica, em seguida, converte a representação fonêmica para formas de onda que podem ser emitidos como som. TTS motores com diferentes línguas, dialectos e vocabulários especializados estão disponíveis através de editores de terceiros.

Andróide

Versão 1.6 do Android adicionou suporte para síntese de fala (TTS).

Internet

Actualmente, existem uma série de aplicações, plugins e dispositivos que podem ler mensagens diretamente a partir de um de e-mail do cliente e web páginas de um navegador web ou Barra de ferramentas do Google, como Text-to-voz que é um add-on para o Firefox . Alguns especializada software pode narrar RSS feeds. Por um lado, on-line RSS-narradores simplificar a entrega de informações, permitindo aos usuários ouvir suas fontes de notícias favoritos e convertê-los para podcasts . Por outro lado, em linha RSS-leitores estão disponíveis em quase qualquer computador ligado à Internet. Os usuários podem baixar gerado arquivos de áudio para dispositivos portáteis, por exemplo, com a ajuda de podcast de receptor, e ouvi-los ao andar, correr ou ir ao trabalho.

Um campo crescente na Internet baseado TTS é baseado na web tecnologia de apoio, por exemplo, ' Browsealoud 'a partir de uma empresa do Reino Unido e ReadSpeaker. Ele pode fornecer funcionalidade TTS a ninguém (por razões de acessibilidade, conveniência, entretenimento ou informação) com acesso a um navegador web. A organização sem fins lucrativos projeto Pediaphon foi criada em 2006 para fornecer uma interface semelhante TTS baseado na web para a Wikipedia .

Outro trabalho está a ser realizado no âmbito da Através da W3C W3C Áudio Incubadora Grupo com o envolvimento da BBC e Google Inc.

Outros

  • Alguns e-books, como a Amazon Kindle, Samsung E6, PocketBook eReader Pro, eDGe enTourage, eo Bebook Neo.
  • Alguns modelos de computadores domésticos Texas Instruments produzidos em 1979 e 1981 ( Texas Instruments TI-99/4 e TI-99 / 4A) eram capazes de síntese de texto-para-fonema ou recitando palavras e frases completas (text-to-dicionário), usando um sintetizador de voz muito popular periférica. TI utilizado um proprietário codec para incorporar frases faladas completas em aplicações, principalmente jogos de vídeo.
  • IBM 's OS / 2 Warp 4 incluído VoiceType, um precursor IBM ViaVoice.
  • Sistemas que operam em sistemas livres e abertas de software de fonte incluindo Linux são várias, e incluem open-source programas como o Festa Speech Synthesis System, que utiliza a síntese à base de difonema (e pode usar um número limitado de Vozes mbrola), e gnuspeech que utiliza a síntese do articulatória Free Software Foundation.
  • As empresas que desenvolveram sistemas de síntese de fala, mas que não está mais neste negócio são incluem melhor discurso (comprada pela L & H), Eloqüente Tecnologia (comprada pela SpeechWorks), Lernout & Hauspie (comprada pela Nuance), SpeechWorks (comprada pela Nuance), Sistemas de retóricas (comprados pela Nuance).
  • Unidades de GPS de navegação produzidos por Garmin, Magellan, TomTom e outros usam a síntese de voz para navegação automóvel.

Speech Synthesis linguagens de marcação

Uma série de linguagens de marcação foram estabelecidas para a entrega do texto como fala em um Formato XML compatível. A mais recente é Speech Synthesis Markup Language (SSML), que se tornou um Recomendação W3C em 2004. Os mais velhos linguagens de marcação de síntese de voz incluem Java Speech Markup Language ( JSML) e SABLE. Embora cada um destes foi proposto como um padrão, nenhum deles tem sido amplamente adoptada.

Linguagens de marcação de síntese de voz são distinguidos de linguagens de marcação diálogo. VoiceXML, por exemplo, inclui marcas relacionadas com o reconhecimento de voz, gestão de diálogo e de discagem por tom, além de texto-para-voz marcação.

Aplicações

Síntese de fala tem sido uma vital ferramenta de tecnologia assistiva e sua aplicação nesta área é significativa e generalizada. Ele permite que as barreiras ambientais que devem ser removidos para as pessoas com uma ampla gama de deficiência. A aplicação mais longo que tem sido o uso de leitores de tela para pessoas com sistemas visuais impairment, mas text-to-speech agora são comumente usados por pessoas com dislexia e outras dificuldades de leitura, bem como por crianças pré-alfabetizadas. Eles também são freqüentemente empregados para ajudar aqueles com grave comprometimento da fala geralmente através de um dedicado saída de voz ajuda a comunicação.

Técnicas de síntese de voz também são usados em produções de entretenimento, como jogos e animações. Em 2007, Animo Limited anunciou o desenvolvimento de um pacote de aplicativos de software com base na sua FineSpeech software de síntese de voz, explicitamente voltada para clientes nas indústrias de entretenimento, capaz de gerar narração e linhas de diálogo de acordo com as especificações do usuário. O aplicativo atingiu a maturidade em 2008, quando NEC BIGLOBE anunciou um serviço web que permite aos usuários criar frases a partir das vozes de Code Geass: Lelouch dos personagens Rebelião R2.

Nos últimos anos, Text to Speech para deficiência e pessoas com mobilidade reduzida ajudas comunicação tornaram-se amplamente implantado em Mass Transit. Text to Speech é também encontrar novas aplicações fora do mercado de deficiência. Por exemplo, a síntese de voz, combinada com reconhecimento de voz, permite a interação com dispositivos móveis através de interfaces de processamento de linguagem natural.

Retirado de " http://en.wikipedia.org/w/index.php?title=Speech_synthesis&oldid=545503431 "