Meio Bit » Robótica e IA » IA: Google TurboQuant, RAMpocalipse e o Paradoxo de Jevons

IA: Google TurboQuant, RAMpocalipse e o Paradoxo de Jevons

Google TurboQuant reduz uso de RAM por IA e derrubou ações na bolsa, mas ainda é cedo para esperar pelo fim da escassez de memórias

9 semanas atrás

O mercado de IA levou uma bela chacoalhada em março de 2026 quando o Google revelou o TurboQuant, um algoritmo de compressão que aumenta em muito a eficiência de grandes modelos de linguagem (LLMs), ao reduzir em até seis vezes o consumo de memória RAM, enquanto aumenta a velocidade de processamento e mantém a precisão.

A resposta foi um baque violento na tríade controladora do mercado de módulos DRAM: SK Hynix, Samsung e Micron (que encerrou sua linha Crucial de produtos para o consumidor final de modo a focar unicamente no mercado corporativo de IA) sofreram quedas imediatas de aproximadamente 6% em suas ações; outras empresas, como SanDisk e Kioxia também foram negativamente afetadas.

Modelo de compressão do Google TurboQuant (Crédito: Divulgação/Google) / IA

Especialistas acreditam que Google TurboQuant pode agravar a crise das memórias RAM, em vez de acabar com ela (Crédito: Divulgação/Google)

Há quem diga que o TurboQuant pode significar o fim do "RAMpocalipse", o estado de escassez imposto a todos que não são aceleradoras de IA, mas especialistas apontam para a possibilidade de o mercado seguir na direção contrária, ou seja, a ferramenta do Google acabar intensificando a situação atual.

TurboQuant aumenta eficiência da IA

O TurboQuant funciona como um compressor do cache de palavras-chave (KV cache), uma memória de curto prazo que LLMs usam para armazenar todo o conteúdo de uma conversa ou solicitação, de modo que possam processar os pedidos sem se perderem no meio do caminho. O problema: esse cache consome quantidades mamutescas de RAM e VRAM, daí a necessidade crescente de GPUs e módulos DRAM voláteis.

A solução do Google é um modelo avançado de quantização, que comprime dados de 16 bits em valores menores. Até então, esse ato implicava em uma perda enorme de precisão e qualidade das solicitações de LLMs como ChatGPT, Gemini e afins, mas os engenheiros de software de Mountain View conseguiram espremer o KV cache em apenas 3 bits sem nenhuma perda.

Em média, um servidor que precisava de 1 TB de RAM para executar solicitações de um determinado número de usuários, passará a consumir de quatro a seis vezes menos memória para atender ao mesmo número de solicitações sem nenhum tipo de comprometimento, uma vez que o TurboQuant seja implementado.

Em teoria, isso significaria que grandes companhias não precisariam mais devorar toda a RAM e VRAM produzidas por Nvidia, SK Hynix, Samsung, Micron e outras empresas para tocar seus produtos baseados em IA, no que a oferta de módulos de DRAM e GPUs poderiam voltar ao estado normal de antes da crise, pouco mais de um ano atrás, com pentes e placas de vídeo para todos e em preços decentes.

De fato, em um primeiro momento houve uma queda acentuada nos preços cobrados por certos distribuidores, tão logo o Google revelou o TurboQuant; há toda uma turba de influencers e entusiastas decretando o fim da crise, que o Google "quebrou o mercado" de IA, etc. e tal, só que a História já demonstrou que não é assim que as coisas costumam ser.

Em um cenário ideal, todo mundo adoraria que companhias se limitassem a usar a quantidade de RAM e VRAM que possuem para fazer o que podem mais e melhor, mas o que pode e certamente vai acontecer, mais eficiência no uso de um recurso leva ao aumento do consumo desse recurso, não à diminuição.

Em 1865, o economista William Stanley Jevons descreveu em seu livro "A Questão do Carvão: Uma Investigação sobre o Progresso da Nação e o Provável Esgotamento de Nossas Minas de Carvão" o que ficou conhecido como o paradoxo que leva o seu nome: na época, o consumo de carvão disparou após James Watt introduzir seu motor a vapor, que aumentou a eficiência do uso do combustível. Com mais eficiência, o carvão foi adotado em muito mais frentes, enquanto se consumia menos material para fazer o que se fazia antes.

O princípio é básico: sempre que melhorias tecnológicas são introduzidas para aumentar a eficiência no uso de um recurso, o consumo do mesmo tende a aumentar, ao invés de diminuir; ainda que o custo geral venha a diminuir (o que efetivamente vai prejudicar a receita das fabricantes de RAM), a demanda pelos grandes compradores, as aceleradoras de IA, permanecerá alta e tende a crescer, estimulados por fazer muito mais.

Segundo Shawn Kim, analista do grupo Morgan Stanley, o TurboQuant favorecerá em muito empresas de LLMs, ao permitir "a implementação de IAs de forma mais lucrativa", gastando menos com RAM. Mas, ao mesmo tempo, especialistas ligados ao JP Morgan apontam que isso não deverá reduzir a demanda por chips pelos grandes clientes; o que pode acontecer é que estes procurarão expandir e acabarão comprando ainda mais DRAM e VRAM, e o resto (todo mundo que não trabalha com IAs de grande porte) que continue se ralando.

De qualquer forma, ainda é um tanto cedo para dizer quais serão os efeitos do TurboQuant no mercado de IA, mas é aconselhável manter os dois pés no chão quanto a uma improvável volta aos velhos tempos de RAM e GPUs disponíveis e baratas para todos.

Fonte: Google, Bloomberg

Leia mais sobre: , , .

relacionados


Comentários