Meio Bit » Arquivo » Engenharia » Como Arthur Clarke previu, computadores agora conseguem ler lábios

Como Arthur Clarke previu, computadores agora conseguem ler lábios

Tecnicamente é uma invenção atrasada, deveria aparecer em 2001 mas como a realidade não é obrigada a seguir o cronograma da ficção, ainda é surpreendente que um grupo de cientistas tenha criado um sistema inteligente capaz de fazer… leitura labial.

7 anos atrás

hallips

No clássico de Kubrick e Clarke, 2001 — Uma Odisséia no Espaço para fugir dos ouvidos curiosos de HAL os astronautas Frank Poole e David Bowman se trancam em um módulo auxiliar da Discovery para conversar.

Só que HAL é mais esperto que isso. Ele deu um zoom na escotilha e fez leitura labial, descobrindo que os dois estavam planejando desligá-lo. 

Na época isso foi um recurso muito legal, e aceito pois ninguém tinha noção da complexidade envolvida, e computadores eventualmente chegariam lá. Era bem mais difícil do que se imaginava mas, incrivelmente, chegamos lá.

Leitura labial é mais arte do que ciência, depende de contexto, experiência, habilidade e um ótimo profissional consegue uns 50% de taxa de acerto.

Entra em cena um grupo de cientistas de Oxford. Eles usaram redes neurais e Deep Learning para treinar uma matriz para fazer leitura labial. Basicamente mostraram zilhões de vídeos, premiando os acertos, punindo os erros e ao final saiu a LipNet.

O sistema consegue fazer reconhecimento labial de sentenças corridas, com uma taxa de acerto de impressionantes 93,4%.

O paper com a pesquisa você pode ler neste link aqui (cuidado, PDF).

Esse é o tipo de tecnologia que costumava ser restrita a filmes de ficção científica, se aparecessem em um Missão Impossível seria chamado de mentirosa, mas é realidade. As consequências são imensas, pense em quantos registros históricos temos, na forma de filmes mudos e que em breve seremos capazes de entender.


Yannis Assael — LipNet: How easy do you think lipreading is?

Claro que aplicações para vigilância e espionagem serão imensas, neste momento metade das agências de espionagem do mundo devem estar mastigando o paper e ligando para os autores com ofertas obscenas, mas as ofertas comerciais serão bem maiores.

Pense bem, um sistema de reconhecimento de voz no seu celular onde você não precisa falar, só mover os lábios. Resolvido o grande inconveniente de usar sistemas de ditado em público.

A parte chata é que no futuro todo mundo vai andar na rua olhando pro celular e fazendo duckface.

duckface

Fonte: Oxford.

Leia mais sobre: , , .

relacionados


Comentários