Meio Bit » Arquivo » Robótica e IA » Pesquisadores do Google estão ensinando máquinas a soarem mais como humanos

Pesquisadores do Google estão ensinando máquinas a soarem mais como humanos

Pesquisadores do Google apresentam solução que ensina a sistemas de sintetização de voz a usarem entonação e maneirismos como os humanos, na hora de transferir textos para voz.

6 anos atrás

Uma das coisas mais complicadas de se fazer é ensinar gramática a um sistema especializado. Assistentes de voz como Siri, Cortana, Alexa, Bixby ou Google Assistant são muito bons para executar tarefas ao entender comandos de voz e seus sintetizadores são até bem competentes, mas ainda soam como máquinas. Sustentar uma conversa é algo impraticável tais sistemas não são muito bons em entonações para a reprodução de vírgulas, pontos de exclamação, interrogação e etc.

O Google no entanto deu um passo importante para oferecer vozes mais humanas a máquinas. A pesquisa do time de desenvolvedores da gigante se concentrou na incapacidade de tais sistemas utilizarem prosódias de maneira correta. Para quem fugiu da aula de Português, prosódia é tudo o que envolve a entonação, ritmo, acentuação e maneirismos na hora de falar que não podem ser previstas na linguagem escrita, como por exemplo os sotaques: uma mesma frase em inglês será pronunciada de uma forma por um americano, de outra por um britânico e de outra ainda por um australiano, sem que uma vírgula sequer tenha sido adicionada ou removida. O mesmo pode ser aplicado à língua portuguesa no Brasil, comparando maneiras de falar por exemplo de um paulista, um carioca, um pernambucano e um gaúcho.

O que os pesquisadores do Google conseguiram fazer foi inserir um codificador de prosódia diretamente em seu sistema de TTS (text-to-speech) chamado Tacotron, que faz a aplicação tendo como base um áudio de referência fornecido por um humano. Ele pode por exemplo aplicar a entonação de acordo com o banco de dados fornecido, obedecendo as regras estabelecidas.

Por exemplo: no primeiro áudio abaixo temos um texto em inglês como referência ("for the first time in her life she had been danced tired"), no segundo uma frase similar sintetizada ("for the last time in his life he had been handily embarrassed") sem a prosódia, e no terceiro a mesma com a prosódia aplicada. Note a diferença na entonação.

Áudio de referência, em inglês norte-americano
Frase sintetizada ligeiramente diferente, sem a prosódia aplicada
A mesma frase sintetizada, com a prosódia aplicada

O Tacotron pode por exemplo mudar a entonação de inglês americano para o britânico ou australiano se baseando em suas bibliotecas, porém o Tacotron já conseguiu transferir a prosódia adequadamente mesmo quando a voz base não está registrada em seu sistema de treinamento, o que demonstra uma capacidade grande de aprendizado por parte do algoritmo. O que para ser sincero, nem surpreende.

Há uma série de exemplos no site, mas desde já é bom deixar claro que nenhum dos áudios sintetizados pelo Tacotron soa perfeitamente como um humano; no entanto, a aplicação da prosódia é muito boa e afasta a sensação robótica fria dos sistemas de voz e oferece resultados mais amigáveis que poderão ser aplicados em sistemas de atendimento, terminais e assistentes virtuais, tornando a interação homem-máquina mais natural.

Você confere o artigo original aqui (cuidado, PDF).

Fonte: Google Research Blog.

relacionados


Comentários