Meio Bit » Arquivo » Engenharia » Depois de 15 anos de atraso, computadores viram craques em leitura labial

Depois de 15 anos de atraso, computadores viram craques em leitura labial

Outro dia, outro avanço. Agora um novo algoritmo de leitura labial conseguiu aumentar a eficiência medíocre de 5% de acerto para 25%. Mais um pouco e dará até pra usar Siri na rua.

8 anos atrás

hal9000

No clássico de Stanley Kubrick 2001, os astronautas Frank Poole e David Bowman se trancam em uma cápsula para conversar sem que HAL9000, o computador que controla a Discovery os ouça. Só que HAL é uma inteligência artificial inteligente: mesmo sem som ele espiona a conversa, fazendo leitura labial.

Na época (2001, nem falo 1968, quando o filme foi feito) isso era pura ficção científica, leitura labial é algo que exige muita intuição, muito preenchimento de lacunas. Vários fonemas usam as mesmas estruturas acústicas, os especialistas dependem muito de contexto e ensinar contexto a um computador é complicado. A movimentação labial para “breu” e “meu” é virtualmente idêntica, mas ninguém fala gostou do breu penteado?

Complicado mas não impossível, como Helen Bear e Richard Harvey, da Universidade de East Anglia, Norwich, UK apresentarão em um paper na conferência internacional de acústica fala e processamento de sinais da IEEE, em Shanghai.

O algoritmo que eles desenvolveram envolve machine learning, onde um computador foi treinado com 12 voluntários falando 200 frases. As imagens foram analisadas com algoritmos de reconhecimento de imagem que geraram mapas de movimentação labial.

O resultado foi impressionante. Sistemas de leitura labial até então conseguiam taxa de acerto de 5%. O novo algoritmo chegou a 25%.

Mesmo se esses valores não melhorarem, imagine como isso pode ajudar sistemas de reconhecimento de voz em ambientes ruidosos. Seu próximo celular pode ter uma câmera só para a Siri ou a Cortana. Serviços de legenda automática como a piada do YouTube poderão se tornar realmente úteis, com contextualização E auxílio da leitura labial.

Para saber mais: Decoding Visemes: improving machine lip-reading, IEEE.

Leia mais sobre: .

relacionados


Comentários