Meio Bit » Arquivo » Engenharia » Microsoft produziu reconhecimento de voz com taxa de acerto de humanos

Microsoft produziu reconhecimento de voz com taxa de acerto de humanos

Nem tudo sobre inteligência artificial está estagnado, muitas áreas avançam rapidamente, uma delas é o reconhecimento de voz, que agora graças a uma pesquisa da Microsoft chegou a um ponto crucial: está tão ou mais eficiente do que a capacidade humana.

7 anos e meio atrás

hal9000readling

Quando em 1968 Arthur Clarke previu que HAL seria construído em 1992 (no filme) ou 1997 (no livro), muita gente achou que ele estava sendo pessimista. Inteligência artificial era um problema de pura força bruta. Décadas depois não estamos mais próximos de emular uma consciência em um computador do que estávamos quando Alan Turing usava fraldas.

Essa é a IA Forte. Já o campo da Inteligência Artificial Fraca, que em vez de consciência resolve problemas específicos, esse tem avançado a ponto de assustar autores de ficção científica.

Explicando de forma bem simples: na IA Fraca você treina a rede neural para identificar referências a Moby Dick em obras de ficção. Na IA Forte o computador lê Moby Dick e entendeu que a baleia é uma metáfora para Deus. Um pensa que pensa, o outro pensa.

A IA Fraca é o que torna possível o piloto automático dos Teslas, seu GPS, Siri e Cortana, sistemas de reconhecimento facial e a busca por imagens do Google. Assim como um bom estagiário, ela não tem a menor idéia do que está fazendo, mas aprendeu aquela única tarefa e a executa com perfeição.

svelha-surdavoltapracaenossacapa

Uma dessas tarefas perfeitas para a IA Fraca é reconhecimento de voz, algo que algumas décadas atrás era restrita a filmes de ficção e modelos primitivos em laboratório. Quando chegou ao grande público, exigia horas de tedioso treinamento. Aí os cientistas perceberam que não deveriam treinar a IA para cada usuário. Se nós não temos que aprender a ouvir cada pessoa com que falamos, não deveria ser assim para o computador.

Como cada grupo de pesquisa tinha os próprios padrões era complicado comparar a eficácia dos algoritmos. Por isso no final de década de 90 o National Institute of Standards and Technology (NIST) lançou um pacote de conversas em inglês, espanhol e mandarim, em formato e qualidade de transmissões telefônicas. Os softwares deveriam se basear nesses arquivos, assim teriam um padrão comum de comparação.

Wayne Xiong, Geoffrey Zweig, Xuedong Huang, Dong Yu, Frank Seide, Mike Seltzer, Jasha Droppo e Andreas Stolcke Read more at http://blogs.microsoft.com/next/2016/10/18/historic-achievement-microsoft-researchers-reach-human-parity-conversational-speech-recognition/#sUtR8G0WLW0a7PXY.99

A equipe: Wayne Xiong, Geoffrey Zweig, Xuedong Huang, Dong Yu, Frank Seide, Mike Seltzer, Jasha Droppo e Andreas Stolcke

Pois bem: segunda-feira (17/10) o Grupo de Pesquisa em Inteligência Artificial da Microsoft Research publicou um paper demonstrando que não só conseguiram uma taxa de erro de 6,3% como um mês depois baixaram esse valor para 5,9%.

Isso significa que transcrevendo uma conversa telefônica, o software erra 6 palavras em cada 100, isso inclui pigarros, aqueles eeeeeeee, pausas e letras engolidas. Isso é impressionante, é histórico por um simples motivo:

5,9% é a taxa de erro de profissionais humanos especializados em transcrição de gravações telefônicas.

O software erra tanto quanto humanos profissionais e bem menos que leigos realizando a mesma tarefa.

Aplicações

A parte mais difícil já foi feita, agora é aprimorar filtros para que a qualidade do reconhecimento não seja degradada por ruídos do dia-a-dia e teremos sistemas como Cortana funcionando em modo turbo. Transcrições automáticas de vídeos, por exemplo, serão lugar-comum. Pense em quantos discursos, aulas e letras do Djavan existem em formato de áudio que poderão ser transformados em texto. E quer mais precisão? Rode duas vezes alterando alguns parâmetros, bingo. Você tem como comparar os resultados e identificar os pontos exatos dos 5,9%.

Fonte: MS Research.

Leia mais sobre: , , , , .

relacionados


Comentários

Comentários Fechados