Carlos Cardoso 12 anos e meio atrás
A tecnologia de OCR foi de todas a que mas me frustrou em seu lançamento. Não era como 3D, ou realidade virtual. A sensação ruim foi motivada por ela estar quase lá, faltar muito pouco, os últimos centímetros cruciais. É como estar preso numa prisão com a Scarlett Johanson na cela ao lado, com um buraco na parede separando vocês. Só que a parede tem 40cm de espessura. OK, 30cm.
Cheguei a comprar mais de um scanner de mesa, com o objetivo de converter meus livros para formato eletrônico. Infelizmente não só era um trabalho de corno ficar escaneando centenas de páginas, como os softwares não colaboravam. A quantidade de erros era inaceitável, o trabalho de revisão seria o equivalente de redigitar o livro todo. Preferi esperar a Apple criar o iPad.
Felizmente a situação mudou. O OCR ainda está longe de ser perfeito mas já supera por exemplo as habilidades mentais de um estagiário e da maioria dos invertebrados. Para textos em condições ideais eu diria que ele pode vir a suprir todas as minhas necessidades. Ainda mais por ser de graça.
No caso, no Google Docs. É simples: Em docs.google.com clique no botão Fazer upload. Você será levado para a tela abaixo. Selecione “Converter texto de PDFs ou arquivos” e selecione o idioma do texto que deseja converter.
Em seguida basta jogar as imagens dos textos, previamente fotografadas ou escaneadas, clicar em iniciar upload e esperar. Assim que terminar o envio o Google Docs disponibilizará opção para voltar para a tela principal. Clique. Cada imagem terá virado um arquivo, com a original e o texto convertido.
Como diz o Didi, vareia. Comecemos bem: A imagem abaixo, do livro Bilhões e Bilhões, de Carl Sagan foi fotografada à noite, com um iPhone torto, com iluminação ruim; Mesmo assim o contraste foi mais que suficiente para produzir uma boa conversão:
Por algum mistério da natureza ele resolveu não reconhecer o título ou o primeiro bloco. O resto foi convertido assim:
Arquimedes (cerca de 287-2 I 2 a.C.)
O contador de grãos de areia
Eu nunca disse isso. Juro. Bem, disse que há talvez 100 bilhões de
galáxias e 10 bilhões de trilhões de estrelas. É difícil falar sobre o cos
mos sem usar números grandes. Falei “bilhões” muitas vezes na série
de televisão Cosmos, que foi vista por muitas pessoas. Mas nunca disse
"bilhões e bilhões”. Para começo de conversa, é muito impreciso.
Quantos bilhões são “bilhões e bilhões”? Alguns bilhões? Vime
bilhões? Cem bilhões? “Bilhões e bilhões” é bastante vago. Quando
reconfiguramos e atualizamos a série, verifiquei e, sem dúvida
nenhuma, nunca disse tal coisa.
Mas Johnny Carson - em cujo Tonight show apareci quase trinta
Vezes ao longo dos anos - disse. Ele colocava um casaco de veludo
Cotelê, um suéter de gola rulê c uma espécie de grenha como peruca.
Tmha criado uma imitação tosca de mim, uma espécie de Dop
Pelgänger, que andava pela televisão tarde da noite dizendo “bilhões e
bilhões”. Costumava me incomodar um pouco ter um simulacro da
II
Meu segundo teste foi com uma página em quadrinhos, fotografada sob as mesmas condições de iluminação:
Foi um fracasso. Ele não converteu absolutamente nada.
O terceiro teste foi covardia: Tentei que o Google convertesse para texto o verso da caixa do DVD do Matrix:
O resultado?
â “Cl MELHEIFI FILME DEI FINU."
- Falha de São Pauloz Proezas de tirar o fôlego. Efeitos alucinantes. Cenas oe arrebentar. Keanu Beeves e Laurence Fishourne lutam pela libertação da humanidade em Xi;-Matrix, um suspense cibernetico nara se ver e rever muitas vezes. escrito
* e dirigido oelos irmãos LUachou.|ski lL¡gadas pelo Ueseioi. Uma
4. surpreendente historia. com efeitos visuais aiucinantes. marcando uma
nova era no cinema. Um filme arrasaclor.
INFDHMQÍEÇIES ESPECIFIIS PFIRH SEU DVD P[.FiYEFi: EIUCUMEN FIHIU DDS BFISTIDUHES 0 MFiIS MISTEHIUS P]=iFiFi DESVENDFIR EM “SIGH D EDELHU BFiFiNCU" E “TUME Fi PILULFI 1 VEHMELHFI" 0 Menu Interativo 0 Filmografias 0 Escolha de Cenas Idioma: Inglês 0 Legendas: Inglês. Portugués 8 Esoanhoi.
FITHFIÇÊIES NR UJEB E FIEESSEI FI SHLFIS DE EHFITS: Sala de bÁte~ pano exclusiva com celebridades e outros eventos especiais.
A tecnologia de OCR evoluiu bastante, mas ainda tem muito que correr atrás. Por mais que hoje seja viável para arquivos em condições ideais, falta flexibilidade. Como é improvável que em 20 anos o Google OCR se comporte pouco melhor que o OCR d´antanho, só posso imaginar que estejam emburrecendo propositalmente os algoritmos, para não despertar a atenção das aplicações mais completas com a mesma funcionalidade.
Mesmo assim converter textos de jornal ou livros para arquivos editáveis já é por si só extremamente útil, mais de uma vez deixei de colocar uma citação em um artigo por preguiça de redigitar.
É uma daquelas tecnologias que ainda não estão prontas (alguma realmente fica pronta?) mas hoje, ao contrário do passado, é viável utilizar o que já existe, sem arrancar cabelos com textos cheios de erros.
É só caprichar no arquivo de origem!