E o dia chegou: reconhecimento de voz é mais rápido que digitação

office-dictation-scan_pic0813

Por muito tempo existiram máquinas com razoável grau de inteligência capazes de entender texto ditado e converter em informação impressa, mas nem todo mundo pode ter uma secretária. Computadores sempre penaram com essa tarefa, por mais que a ficção científica vendesse como algo fácil.

Hoje a força bruta E a inteligência artificial conseguiram resultados impressionantes. Siris e Cortanas funcionam sem treinamento (Google também mas ele não tem personalidade) e com taxas de reconhecimento excelentes. Mesmo assim ainda não são tão eficientes quanto um texto inserido via teclado.

Por enquanto, e um enquanto que será bem curto. A Universidade de Stanford fez um teste comparando a entrada de dados via teclado em smartphones e via Deep Speech 2, um software desenvolvido pelo Baidu, para conversão de fala em inglês e mandarim.

O resultado? O software de reconhecimento de voz produziu 20,4% menos erros do que o teclado quando o texto era em inglês, em 63,8 menos quando era em mandarim.

O experimento envolveu 32 pessoas entre 19 e 32 anos, cada um escrevendo e falando 100 frases.

Os pontos negativos foram os de sempre: pessoas sem costume de usar voz, problemas com o ruído ambiente e dificuldade de corrigir quando você comete algum erro falando.

Talvez o segredo mais uma vez esteja na ficção científica. Em vez de se esforçar para adivinhar o que foi dito, é preferível que o computador seja honesto e admita que não entendeu o que foi falado.


Stanford experiment shows speech recognition writes texts more quickly than thumbs

fonte: Mashable.

Relacionados: , , , , ,

Autor: Carlos Cardoso

Entusiasta de tecnologia, tiete de Sagan e Clarke, micreiro, hobbysta de eletrônica pré-pic, analista de sistemas e contínuo high-tech. Cardoso escreve sobre informática desde antes da Internet, tendo publicado mais de 10 livros cobrindo de PDAs e Flash até Linux. Divide seu tempo entre escrever para o MeioBIt e promover seus últimos best-sellers O Buraco da Beatriz e Calcinhas no Espaço.

Compartilhar
  • A pergunta que não quer calar. Como desinstala esse baidu?

    • OverlordBR

      Como dizem os colegas lá do Giz: “Baidu reinstalado com sucesso!”

    • HAO123 INSTALADO COM SUCESSO!

    • Caipiroto, o Capeta Caipira 😈

      Muito fácil. Só comprar um computador novo.

    • Mike

      Format c:

    • Baidu Brasil

      Oi, Luiz! Qual produto você quer desinstalar?
      Entre em contato com o SAC do Baidu para podermos te ajudar: 0800 718 2035, [email protected] ou por chat no nosso blog! 😉

  • Jonas S. Marques

    Imagina só o quão confuso vai ser ouvir gente mandando mensagem

    Imagina só o quão confuso vai ser ouvir gente tweetando no metrô ou usando o Telegram pra *Assuntos pessoais* na fila do banco.

    • Nestes casos, a falta de privacidade vai fazer com que as pessoas ainda usem o bom e velho teclado.

    • Márcio Tondin

      Costumo usar os comandos de voz apenas quando estou dirigindo ou quando estou em casa. Em público é melhor manter o bom senso e só enviar mensagem digitada ou áudios não comprometedores.

      • Caipiroto, o Capeta Caipira 😈

        Fala isso pra minha sogra tonelada de gente que esqueceu que o celular dá pra encostar na orelha e ouvir e só conversa no telefone no viva-voz.

        • Paquiderme

          No Whatsapp ele muitas vezes se confunde com o movimento de colocar na orelha e pausa o aúdio ou pausa antes do final do aúdio completo, então quando possível prefiro usar no viva-voz mesmo.

  • Estão dando poderes demais para o Baidu.

    • Baidu é o nome da Skynet.

      • BAIDU é o a base código de auto-instalação que a Skynet irá copiar para si no apocalipse INSTALADO COM SUCESSO

      • Sempre achei que a Skynet era a Google disfarçada.

  • Oli

    “…um software desenvolvido pelo Baidu”. Depois dessa frase instalou aqui. Como faço agora?

    Edit: Nãoooooo, instalou mais uma vez.

    • Junior Capitanio

      esse troço aí é aquele cujo nome não pode ser mencionado, ja pensou se falar a palavra 3 vezes na frente do espelho?

  • Andre Kittler

    Quando eu ero escrevendo algo o erro pode pasar desapercebido, ou mesmo ser irrelevante, pois a idéia (ou seja, a mensagem) eu passei (OK, sempre tem os grammar nazies, mas quem realmente se importa com essa gente?).
    Por outro lado,
    Alguém tenta dizer isso acima para um telefone por vos e ve o que sai.
    99% de precisão em voz é equivalente a 0%. Não serve, a falha quando ocorrer costuma ser fatal. E isso em ambiente silencioso, desses que apenas existem em testes.

    • Christian Oliveira

      Vc usou o recurso neste comentário?

  • Christian Oliveira

    O filme da foto é sublime. 🙂

  • Super Suporte

    Enfim, Skynet agora terá tbm a compreensão da linguagem, não falta muito para a peça mais importante: consciencia

    Agora um plot twist q ngm esperava (oras mas eh claro, é um plot twist!)

    E se esse tempo todo a Skynet é na vdd o Baidu?

    • Daniel

      Agora você disse algo que me preocupou, na china seria o lugar ideal para mandar robos disfarçados programarem o código do baidu.

    • HAHAHAHAHAHAHAHAHAHA

  • “E ele se instalará nas moradas, tudo verá e ouvirá, e lhe foi dado poderes de administrador. Aquele que tem sabedoria e que conseguir ler seu código calculará, e o seu número é 666”
    Apocalipse Baidu

    • Mike

      Kkkk! Muito bom!

    • Felipe Braz

      Poderíamos adaptar a lerta de “the number of the beast” (iron maiden) falando do baidu certamente

  • Enfim, se realmente funcionar em português, o Datilógrafo finalmente poderá usar um computador ou smartphone para redigir o pedido de fita pra máquina e corretor líquido.

    E com aquele português pátrio correto da época dele, época esta em que realmente era ensinado corretamente a Língua Portuguesa na escola, o texto ficará impecável.

  • Daniel

    meu smart fone é sincero ate de mais…Oi você disse algo, e vamos tentar de novo é o que ele fala melhor, e pela segunda frase percebo que ele também é brasileiro: muita fé, paciência e bora falar de novo…

    • Junior Capitanio

      ele nao diz? “heim?, falou comigo?”

  • Cocainum

    E o equivalente da ampulheta será…

    – Ei, Cortana!
    – Não enche! Estou ocupada!

    • Caipiroto, o Capeta Caipira 😈

      Mas como easter egg, a Cortana só dará essa resposta durante 5 dias no mês.

      • Cocainum

        Eu pensei em acrescentar esse detalhe, mas fiquei com medo da repercussão. Como você já está no inferno mesmo, whatever.

        • Caipiroto, o Capeta Caipira 😈

          Não ligo muito pros floquinhos. Além do mais, não botei aqui nenhuma informação biologicamente incorreta.

          • O bom é que pra acalma-la é só dar CTRL+C CTRL+V no chocolate…

        • Alberto Prado

          Depois que o próprio autor mandou essa: “Por muito tempo existiram máquinas com razoável grau de inteligência
          capazes de entender texto ditado e converter em informação impressa, mas
          nem todo mundo pode ter uma secretária.”? Eu acho que isso é fichinha.

      • Achei ofensivo, posta mais.

  • Carl Segão

    BIDU instalado com sucesso!

  • marcelosite

    Eu uso digitação por voz no android, acho bom.
    Algumas bobeiras que não sei fazer, ou deveriam ser implementadas.
    Exemplos: atalhos para acentuação e pontução.

    Dito a frase e quero colocar uma (?) interrogação no final. Não consigo, tenho que mudar para o modo teclado, posicionar o cursor onde quero, e achar a “?” Uns atalhos para ? ! : – , seriam bons.
    Ecsiste ?

    • Ótima pergunta!

      Toda vez que tentei (por costume), ele incluiu a palavra “virgula” ou “interrogação”… 🙁

      Em um mundo ideal a digitação do Android (e de outros SO de smartphones) deveria reconhecer, como nós humanos, breves pausas combinadas com mudança de tom ao dizermos “vírgula”, “interrogação”, “exclamação”, “ponto”, “parágrafo” (ou “ponto parágrafo”), “travessão” e os sinais de pontuação que vêm aos pares (“aspas” e “fechar aspas”, assim como parêntese, colchete, chaves, etc.).

      Pelo menos foi assim que aprendi com os ditados na escola…

      • marcelosite

        Acredito que reconhecer pausas e tom de voz deve ser tecnicamente complicado.
        Acredito que “hot words” deveriam ser colocadas para escrever pontuação e caracteres especiais.
        Tipo “grafa vírgula” o sistema coloca “,” “grafa interrogação” = “?”
        Dificilmente você iria precisar escrever “grafa ponto final”
        Funcionaria para mim. Bom está ai para arquivo, se implementarem futuramente quero umas moedas.

    • Felipe Braz

      Esses tempos me senti o tony stark.. estava dirigindo com o celular no holder e tinha me esquecido do meu procedimento padrão antes de sair: Abrir o google play e botar a rodar um metal e abrir o waze. Então eu chamei o google now (moto x) e falei “tocar musica twenty two acacia avenue” e reconheceu tudo absolutamente certo e abriu o play music, então log em seguida “ok google now, abrir waze” e kra, sério, funcionou lindamente!

      • Alberto Prado

        Primeira geração? Se for eu só tenho que concorda. Aquele chip dedicado pra mim fazia toda a diferença. A taxa de sucesso com ele é maior do que em outros smarts que não tem e emula por software.
        Eu não to bem certo, mas acho que já cheguei de manda até mensagem ditando. Só não lembro se foi no whats ou sms.

        • Felipe Braz

          Isso foi no X de terceira geração, nunca testei quando tinha o de primeira =(

  • Anônimo, seu amigo no XXX

    “…via Deep Speech 2, um software desenvolvido pelo Baidu…”, “Os pontos negativos foram os de sempre:”
    Baidu instalado com sucesso.

  • O google já consegue entender quase tudo que eu digo quando tou com preguiça de escrever no Evernote, mas na minha opinião o grande problema ainda é a questão da pontuação.

  • Reinaldo Matos

    Hey Cortana, tell me a joke…
    Essa é a melhor de todas

  • Um experimento com 32 pessoas e já se afirma que o reconhecimento de voz venceu a digitação?

    Vou juntar 20 pessoas aqui no meu bairro e afirmar que 100% da humanidade toma sol diariamente, visto que as 20 pessoas do meu bairro o fazem.

    • Garrete Alves Reis

      Não questiona, cara… Vão perguntar se vc é pesquisador ou cientista formado, pra questionar o experimento… Acontece comigo direto! Sério!! kkkkkkkkkkkkkkk…

  • Ah Baidu! <3

  • TaSerto Schmitt

    “um software desenvolvido pelo Baidu”
    Baidu instalado com sucesso!

  • Felipe Braz

    Quando eu estava no 2º grau, no começo desse milênio (conclui o ensino medio em 2002) instalei o viavoice da ibm, meus sonhos molhados eram nunca mais precisar digitar um trabalho de escola na vida. Mas aí começou o inferno, tinha que ditar praticamente um livro pra treinar o software no padrão de voz, e as vezes ele ficava “trancado” numa parte não reconhecendo a frase e pedindo pra repetir n vezes. Tendo em vista a raiva que passei pó pra treinar o software, prefiro que ele tente adivinhar do que ficar me fazendo repetir =P

  • Usuário: -“Cortana pesquisa pra mimsdfgfg”… / Cortana: FALA ALTO!!! TIRA O OVO DA BOCA!

Aproveite nossos cupons de desconto:

Cupom de desconto Locaweb, Cupom de desconto HP, Cupom de desconto Descomplica, Cupom de desconto Nuuvem, Cupom de desconto CVC, Cupom de desconto Asus, Cupom de desconto World Tennis