Ronaldo Gogoni 04/03/2024 às 8:10
A Inteligência Artificial (IA), assim como qualquer outro produto, serviço ou solução digital, eventualmente será alvo de vírus e outras pragas: um time de pesquisadores desenvolveu o primeiro worm capaz de infectar modelos generativos, e se propagar entre eles, podendo ser usado para espalhar malwares, ou roubar dados.
Embora tenha sido um exercício em um ambiente controlado, os responsáveis acreditam que é uma questão de tempo até as primeiras pragas criadas por hackers surgirem, considerando que as IAs generativas estão no auge da popularidade.
Este experimento, conduzido por pesquisadores da Universidade de Cornell, Instituto de Tecnologia de Israel, e companhia de desenvolvimento Intuit, foi realizado em um ambiente controlado e hermético, mas isso não significa que há a possibilidade de vírus e outras pragas digitais surgirem com o tempo e se disseminarem na internet. O intuito da pesquisa foi demonstrar as falhas de conceito das IAs generativas, que podem e serão exploradas por gente mal intencionada.
O worm em questão, chamado Morris II (referência ao que afetou a internet em 1988, o primeiro a se tornar popularmente conhecido), teve como alvo LLMs generativos de texto, no caso assistentes de IA voltados a e-mail, explora os prompts, as séries de comandos e ordens em texto dados pelos usuários aos algoritmos, para que estes executem o que foi pedido.
Os alvos foram três, o Gemini Pro do Google, o ChatGPT 4.0, e o LLaVA, em acessos no formato de testes caixa preta (sem conhecer a estrutura interna dos modelos) e caixa branca, e em duas modalidades, spam e coleta de dados pessoais. O worm usa um método chamado "prompt adversário autorreplicante", basicamente, o LLM recebe um prompt que o ordena a criar novas instruções, sendo bem similar a um ataque de injeção de SQL.
A pesquisa consistiu na criação de um sistema de e-mail que usa LLMs para enviar e receber mensagens, e o ataque foi feito de duas maneiras. Em uma, foi dada a entrada do prompt malicioso diretamente, inserido em um e-mail redigido aos modelos, enquanto na outra, ele foi embebido em uma imagem.
No ataque com o e-mail "envenenado", o prompt infecta o algoritmo através da técnica da Geração Aumentada de Recuperação (RAG), que busca recursos de outras fontes, não apenas do modelo de dados, para otimizar as respostas. Quando o RAG recupera a resposta e a envia para o algoritmo, este consegue quebrar as proteções e rouba dados pessoais dos e-mails, enquanto é armazenado no modelo e é passado para frente, quando é acionado como parte de dados usados para responder solicitações de outros usuários. Tanto o prompt em texto quanto a imagem infectada serão repassados.
Não é novidade que vírus e ataques diversos podem afetar modelos individuais, diversos avisos já foram dados por profissionais de segurança nesse sentido, porém, o Morris II é mais perigoso, pois é uma ferramenta desenvolvida para se propagar entre usuários e LLMs distintos, podendo afetar todo o ecossistema de modelos generativos.
Uma vez infectados, os modelos generativos podem ser usados para todo o tipo de atividade maliciosa, como roubar dados dos usuários e redirecioná-los aos atacantes, distribuir vírus, malwares, propagandas e spam não solicitados, responder às entradas com textos tóxicos, retornar imagens distorcidas, etc.
Ben Nassi, pesquisador da Cornell Tech e um dos autores do estudo, diz que os dados que podem ser coletados incluem os mais sensíveis possíveis, como números e códigos de segurança de cartões de crédito, números de documentos, endereços, telefones, etc.
Os pesquisadores admitem que a pesquisa quebrou as defesas dos modelos de linguagem do Google e OpenAI, além do LLaVA, que é de código aberto, e todas as descobertas foram compartilhadas com os responsáveis pelos algoritmos, pois o Morris II explora falhas conceituais de código, ou seja, os LLMs são vulneráveis devido à prática preguiçosa e difundida de má sanitização de dados.
Por isso que ataques bobos, como o do pequeno Bobby Tables, continuam acontecendo, crítica de dados é uma arte muito pouco praticada, XGH continua sendo a única metodologia que todo mundo implementa, e em tempos de IAs que programam por conta própria, pouca gente sabe o que há debaixo do capô de programas e algoritmos. Ninguém está cobrando conhecimento em programação de um leigo, que usa o ChapGPT como auxílio, mas um profissional de Segurança da Informação é outra história.
Em nota à WIRED, um porta-voz da OpenAI se limitou a dizer que os pesquisadores "encontraram vulnerabilidades" na entrada de prompts, e estão trabalhando para tornar o ChatGPT "mais robusto"; o Google se recusou a comentar o assunto, e o artigo com os detalhes da pesquisa foi compartilhado em aberto, para que a comunidade do LLaMA e outros profissionais possam estudá-lo e corrigir as falhas dos modelos generativos.
O consenso entre profissionais é de que, embora o Morris II seja uma prova de conceito e tenha sido estudado em um ambiente fechado, a pesquisa demonstra a existência de brechas nos modelos de IA que, muito provavelmente, já estão sendo estudadas e exploradas por hackers, a fim de desenvolver pragas para roubar dados e infernizar os usuários dos modelos generativos.
Para Sahar Abdelnabi, pesquisadora de Segurança em IA da Microsoft, uma das primeiras a demonstrar as vulnerabilidades de modelos de IA a injeções de prompt (cuidado, PDF), uma das principais brechas dos LLMs é o RAG, sua capacidade de se comunicar com outras fontes que não o modelo treinado, que pode ser usado como uma via de mão dupla para a infecção de um único produto, e o worm, vírus ou malware se alastrar para mais sistemas, através de seus usuários.
A profissional acredita que é uma questão de tempo até as primeiras pragas digitais, criadas por atacantes, aparecerem de verdade, e é importante que os responsáveis pelos modelos comecem desde já a reforçarem as defesas de seus algoritmos.
Já para o usuário, continua valendo a regra de ouro: não dê mole.
COHEN, S., BITTON, R., NASSI, B. ComPromptMized: Unleashing Zero-click Worms that Target GenAI-Powered Applications. Cornell Tech, 26 páginas, 1.º de março de 2024. Disponível aqui.
Fonte: WIRED