Home » Meio Bit » Áudio » Alunos do MIT conseguem recriar o áudio de uma conversa à partir das imagens de um saco de batata frita

Alunos do MIT conseguem recriar o áudio de uma conversa à partir das imagens de um saco de batata frita

Estudantes do MIT conseguiram recriar as ondas sonoras de um diálogo, analisando imagens de um saco de batata frita captadas por uma câmera de alta velocidade, através de um vidro à prova de som. Impressionante!

4 anos atrás

sound-from-video-vibrations

Essa aqui vai deixar a NSA em polvorosa. Estudantes do MIT conseguiram recriar as ondas sonoras de um diálogo, analisando imagens de um saco de batata frita captadas por uma câmera de alta velocidade, através de um vidro à prova de som.

A ideia do projeto leva em conta que quando um som atinge um determinado objeto, isso cria vibrações distintas que, claro, não são perceptíveis à olho nu. Ao menos não pelo olho humano.

Há um sinal muito sutil que mostra o som que está passando pelo objeto.” — disse Abe Davis, um estudante de graduação em Engenharia Elétrica e Ciência da Computação do MIT e primeiro autor do artigo.

Mas, como eu disse, esse movimento é muito pequeno. Algumas vezes, tão pequeno quanto milésimos de um pixel no vídeo. Mesmo com essas restrições, quando esses sinais atingem uma ponto médio na onda, é possível extrair o som. Ao observar todo o objeto, você pode filtrar o ruído.

Os resultados são certamente impressionantes — e, por que não dizer, assustadores — mas plausíveis.

Usando conceitos como Visão Computacional, análise e isolamento de padrões, eles fizeram um vídeo que mostra um saco de batata fritas, filmado a cerca de 15 metros de distância, através de um vidro à prova de som.

E usando um algoritmo, eles conseguiram recriar o som de alguém recitando o poema “Mary Had a Little Lamb”, da coleção infantil atribuída à Mother Goose.

Obviamente o som não é alto e cristalino como captado pelos nossos sistemas auditivos, mas é plenamente decifrável por pessoas cuja língua nativa é o inglês, no caso do poema, que foi recitado neste idioma.

Na maioria dos casos, para melhores resultados é necessário a utilização de uma câmera de alta velocidade. E olha que os estudantes utilizaram um modelo que atinge de 2.000 a 6.000 frames por segundo. No mercado já temos câmeras que podem facilmente superar os 100 mil fps.

Ainda assim, os pesquisadores descobriam que o efeito também pode ser reproduzido, com menor acurácia, utilizando filmadoras mais populares.

Veja o vídeo abaixo e entenda melhor:

Abe Davis's Research — The Visual Microphone: Passive Recovery of Sound from Video

Quanto tempo agora até começar o mimimi do tipo “Hey você, pare agora de filmar meu salgadinho! Me deixe comer em paz”.?

Na dúvida, prefira o consumo de Pringles. A vibração não produz ondas tão precisas quanto à dos saquinhos metálicos e você ainda pode criar uma antena de Wi-Fi com o tubo.

Fonte: Popular Science, Washington Post e MIT.

relacionados


Comentários