Meio Bit » Arquivo » Engenharia » Sistema de reconhecimento de voz da Microsoft atinge taxa de acerto de 94,9%

Sistema de reconhecimento de voz da Microsoft atinge taxa de acerto de 94,9%

Tenha medo (ou não): sistema de reconhecimento de voz da Microsoft atingiu uma impressionante taxa de erro de apenas 5,1%, similar a de duas pessoas conversando sem intermediários.

7 anos atrás

Há uma grande diferença entre IA Forte e Fraca. A primeira, a que emula consciência ainda é um estudo em aberto e por enquanto não estamos nem perto de alcançar tal patamar Já o campo da IA Fraca avançou em níveis exponenciais ao longo dos anos, possuímos sistemas especialistas capazes de realizar funções específicas muito mais avançados do que qualquer coisa que imaginamos nos filmes e séries do passado.

Usamos IA Fraca em uma série de aplicações do dia a dia como o piloto automático dos Teslas, reconhecimento facial, buscas de imagens e até mesmo diagnósticos. Basta entregar uma base de dados e ensinar a rede neural a mastigar, engolir, digerir e absorver tudo, e a partir daí identificar padrões e prover resultados.

Nisso temos o reconhecimento de voz. No início a tarefa era complicada, treinar um sistema para ouvir e identificar vozes individuais é um martírio visto que ninguém fala da mesma maneira, e estou me atendo aqui a um cenário de uma só língua. Entonação, sotaques, maneirismos, expressões regionais, tudo influencia e era um inferno para fazer o computador entender. Foi quando a National Institute of Standards and Technology (NIST) lançou no fim dos anos 1990 um pacote de conversas em inglês, espanhol e mandarim, em um formato e qualidade de transmissões telefônicas. Os desenvolvedores e pesquisadores foram instruídos a basear seus softwares nessas fontes de dados, assim teriam uma fonte comum de comparação entre si de modo a avançar as pesquisas.

Corta para hoje, com sistemas de reconhecimento como Siri, Google Assistant e Cortana e outros, mas é a Microsoft que estava mais avançada. Seu software em 2016 havia conseguido atingir o patamar de 5,9% e agora a gigante reduziu ainda mais esse valor, chegando a 5,1%. Ou 94,9% de acerto.

Isso significa que de 100 palavras ditadas o sistema só falha em reconhecer cinco, incluindo todos os ruídos de comunicação possíveis como gagueira, tosses e etc. Vale lembrar que 5,9%, o número anterior é a taxa de erro de humanos treinados, especialistas em transcrições de chamadas telefônicas e a taxa de uma pessoa comum é um pouco maior. O software da Microsoft se mostrou equiparável a escribas profissionais com aptidões especiais e se emparelhou à taxa de acertos de uma conversa presencial entre dois indivíduos, sem intermediários como telefones.

As aplicações são diversas, desde as internas como dar mais poder à Cortana, melhorar grandemente os algoritmos usados no sistema de tradução simultânea do Skype, de apresentações do PowerPoint e dos serviços cognitivos da Microsoft como também oferecer a tecnologia para terceiros, mediante acordos e parcerias. Um software cada vez mais capaz de entender tudo que o interlocutor fala, mesmo quando ele não é claro o bastante é algo que muito adorariam por a mão e a Microsoft é a que está mais perto de atingir tal marca.

Você confere os detalhes da pesquisa aqui (cuidado, PDF).

Fonte: Microsoft.

relacionados


Comentários