O Detalhe Oculto do Tradutor Universal da Microsoft
Todo mundo viu o vídeo acima: Rick Rashid, Chief Research Officer da Microsoft, apresentando a tecnologia de reconhecimento de voz e tradução da empresa.
Por si só já é um avanço e tanto, em alguns casos a precisão passa de 90%, em outros menos, e o que torna a tecnologia real é justamente podermos ver os erros, acontecendo ao vivo. Só que mesmo a capacidade de reconhecer texto ditado em tempo real não é o “impressionante”.
O melhor não é nem quando Rick aciona a tradução para chinês, e o sistema passa a além de mostrar o texto em inglês, exibir a tradução.
O pulo do gato é que a tecnologia deles exige treinamento, que nem os Via Voices de antigamente. Parece um retrocesso, mas com isso o sistema decompõe o áudio em fonemas básicos, tipo aquelas letras esquisitas em dicionários: (n-f
th
f
l)
Com isso ele aplica os blocos de áudio no outro idioma. A sintetização de voz deixa de ser uma Siri ou um Sam da vida, e passa a ser feita com a voz E entonação do usuário original.
Boa parte dos mal-entendidos acontecem por falta de entonação nos textos escritos. Um áudio traduzido por máquina, mantendo entonação original poderia eliminar várias dessas pequenas confusões. Indo além, estamos chegando em uma época onde a tecnologia derrubará de vez a maldição de Babel. Sem o inconveniente de enfiar peixes na orelha.