Microsoft Research consegue aplicar o conceito de sistema de arquivos em uma cadeia de DNA

Em 2016 a Microsoft Research anunciou que estava investindo um grande esforço para tornar sequências de DNA uma mídia confiável e conveniente para o armazenamento de grandes quantidades de dados. O motivo era simples, a quantidade de informação que pode ser empacotada em cadeias de moléculas é astronômica, muito maior do que qualquer método que utilizamos hoje.

Para se ter uma ideia, um grama de material genético é capaz de em teoria armazenar um zetabyte de informação, ou um bilhão de terabytes. O grande problema, no entanto é o método utilizado para escrever e principalmente, ler os dados: DNA armazena informação em cadeias compostas por quatro bases (adenina, citosina, guanina e timina ou simplesmente A, C, G e T) e é preciso primeiro traduzir código binário para essa configuração.

Depois, cada bit é dividido em pedaços de 100 a 150 bases de comprimento e inseridos nas terminações das cadeias, de modo que seja “fácil” ler os dados de volta. Digo isso porque além do método de escrita depender de equipamentos específicos, como a máquina da Twist Bioscience (empresa que forneceu as 10 milhões de cadeias de oligonucleotídeos que a Microsoft utiliza na pesquisa) e para fazer a leitura, todo o DNA presica ser sequenciado. E mais de uma vez, isso porque há um nível de aleatoriedade dada a forma com que os bits acabam impressos nas cadeias, de modo a não receber erros.

No entanto, um time de pesquisadores da Microsoft Research e da Universidade de Washington apresentaram um “novo” método para ler os dados no material genético de maneira mais simples: eles implementaram algo próximo a um sistema de arquivos e fizeram uma leitura de acesso randômico, e ainda que não seja necessariamente uma novidade foi a primeira vez que o conseguiram em uma longa cadeia, conseguindo recuperar 200 MB de dados sem erros divididos em 35 arquivos com tamanhos entre 29 kB e 44 MB, consistindo de textos, áudios, imagens e até vídeos em alta definição.

Os pesquisadores conseguiram isso utilizando um conjunto de marcadores moleculares específicos, de modo a identificar os arquivos desejados e não recuperar sequências desnecessárias. Para isso era preciso identificar quais seriam úteis para a tarefa e por sorte, há milhares compatíveis. Assim, basta utiliza-los como “tags” e na hora do sequenciamento genético, decodificar apenas as sequências desejadas. O resultado foi a recuperação completa dos arquivos, sem puxar nada desnecessário, sem erros e de um modo muito mais rápido.

Os pesquisadores também contornaram o problema em que cadeias de DNA produzem erros ao identificar dados com sequências binárias idênticas, através de uma operação XOR codificando a sequência em questão, permitindo a quebra de longas sequências e resolvendo potenciais problemas de armazenamento de dados.

A perspectiva para o uso de material genético como mídia de armazenamento não é para fornecer SSDs ou pendrives com espaço medido em EBs, mas sim prover uma maneira de armazenar todo o conhecimento humano de uma maneira ligeiramente mais duradoura (o DNA tem meia-vida de 521 anos), ainda que os cristais dos Superman sejam em tese eternos. Levando em conta que o processo de gravação e leitura de dados é complexo e caríssimo, no máximo em algumas décadas a solução estará disponível apenas para soluções corporativas de grande porte, para companhias com muita bala na agulha.

A Microsoft no entanto permanece otimista, e pode ser que na próxima geração ou na seguinte tenhamos dispositivos de bolso com uma capacidade de armazenamento maior que tudo o que já vimos. Por enquanto, e pelo menos pelos próximos anos é bom manter os pés no chão.

Você pode apreciar o artigo aqui.

Fonte: Nature.

Relacionados: , , , , , , , ,

Autor: Ronaldo Gogoni

Profissional de TI auto-didata, blogueiro que acha que é jornalista e careca por opção. Autor do Meio Bit e Portal Deviante, podcaster/membro fundador/Mestre Ancião do SciCast e host/podcaster do Sala da Justiça.

Compartilhar