Meio Bit » Robótica e IA » IA: briga entre Cloudflare e Perplexity pode mudar a internet

IA: briga entre Cloudflare e Perplexity pode mudar a internet

Cloudflare acusa Perplexity de burlar robots.txt para coletar conteúdos restritos; startup diz que empresa de segurança "não entende" a IA

Um arranca-rabo entre a Cloudflare e a Perplexity pode mudar a internet para sempre: a companhia de segurança acusa a startup de Inteligência Artificial (IA) de agir como um "bot" ilegal, coletando conteúdos de sites e domínios pela rede mesmo quando seus mantenedores proíbem a prática, passando por cima das regras definidas nos protocolos robots.txt.

A Perplexity se defende, dizendo que a Cloudflare "não entende como IA funciona", e acusando a companhia de mentir sobre as solicitações maliciosas.

Desavença entre Cloudflare e Perplexity pode mudar entendimento sobre como a internet opera (Crédito: Ronaldo Gogoni/Meio Bit)

Perplexity dribla robots.txt

As acusações contra a Perplexity de que a companhia estaria coletando conteúdo da web para alimentar seu motor de IA sem autorização não são novas. Em junho de 2025, o site WIRED revelou que a companhia vinha desrespeitando direitos autorais, após a acusação da Forbes de uma matéria plagiada, e as regras gerais de operação da internet, ao fazer uso de um programa hospedado no Amazon Web Services (AWS) para coletar conteúdos sem pedir.

Na última segunda-feira (4), a Cloudflare também entrou na briga, detalhando como o programa opera. Em situações normais, buscadores legítimos acessam sites conforme as regras estabelecidas pelo robots.txt, um protocolo na forma de um arquivo de texto no diretório raiz, onde cada administrador de site, blog, domínio ou coisa que o valha, diz o que pode ser acessado, e o que é restrito.

Mesmo o gigante Google, que em 2018 aboliu seu antigo código de conduta "Don't Be Evil", obedece e respeita o robots.txt, estabelecido em 1994 e considerado um dos pilares para a administração saudável da internet, como uma rede aberta e acessível para todos.

A Cloudflare se meteu no rolo após receber inúmeras denúncias de seus clientes, alegando que os rastreadores da Perplexity coletavam conteúdos descritos como restritos e não abertos para uso, tanto no robots.txt quanto em seus firewalls. Após uma investigação, a empresa de segurança identificou um padrão de comportamento mal-intencionado, que aciona um rastreador não-declarado, essencialmente um bot, que usa uma série de táticas para mascarar sua identidade, e ter acesso a conteúdos bloqueados.

Funciona assim:

Diagrama da Cloudflare mostra como o bot da Perplexity opera (Crédito: Divulgação/Cloudflare)

O crawler oficial da Perplexity, assim como outros rastreadores/coletores de conteúdo da internet, acessa o robots.txt de um site e checa se ele é permitido entrar. Caso o arquivo e texto E o firewall o bloqueiem, ele aciona um segundo rastreador não-declarado, o bot, para forçar a entrada alternando entre vários IPs, até encontrar um que funcione; feito isso, o bot tem acesso a tudo do site, que coletado para alimentar a IA da startup.

A Clouflare diz que realizou testes com sites novos criados para o experimento, com regras explícitas de bloqueio de bots e crawlers, e mesmo assim o rastreador da Perplexity driblou todas as restrições, provendo posteriormente, através de seu motor de IA, resultados claramente coletados dos domínios-teste restritos.

Com isso, a companhia de segurança removeu o coletor oficial da startup da lista de agentes sancionados e bloqueou todos os crawlers não-declarados, categorizando a empresa basicamente como um agente pirata, que não respeita as regras mais básicas da internet.

IA pode coletar tudo?

Quando a Forbes acusou a Perplexity de plágio, o CEO da startup, Aravind Srinivas, deu de ombros e respondeu, de forma cínica, que seu motor era "um mero agregador de informação". A empresa não se desculpou, não removeu a matéria copiada, e foi isso. O executivo acredita, assim como alguns outros proeminentes da área, que tudo na internet é livre para uso e coleta, e IAs podem acessar qualquer coisa, sem pedir permissão, nem pagar nada.

Isso está implícito na resposta de Srinivas à Cloudflare: através de sua companhia, o CEO disse que a empresa de segurança, que ele vê como um gatekeeper da internet, "não faz a menor ideia de como assistentes modernos de IA funcionam", e que ela está tentando "impor regras antigas" a seu negócio, e ao setor de soluções generativas por tabela.

A Perplexity diz que sua solução não é um bot como o do Google, mas um agente de usuário, que fornece respostas a solicitações de usuários em tempo real, ao invés de coletar material de milhões de sites para construir um grande banco de dados, a ser usado posteriormente; ao mesmo tempo, Srinivas acusa a Cloudflare de mentir na cara dura, ao atribuir de 3 a 6 milhões de solicitações diárias de "um serviço de nuvem de terceiros" à sua solução, "por um erro básico de análise de tráfego na net, algo vergonhoso para uma companhia cuja função é analisar tráfego".

Com ou sem copyright, empresas de IA defendem o acesso a uso, sem pagar nada ou pedir permissão (Crédito: Reprodução/acervo internet)

A opinião pública, como sempre, está dividida. Uns defendem a Perplexitiy e o modelo de IAs em geral, como proxies entre o conteúdo e a real solicitação de um usuário, enquanto outros acusam a startup de mascarar roubo de conteúdo protegido como liberdade de acesso, enquanto considera o robots.txt como uma "regra arcaica" e desnecessária para os tempos atuais.

O grande problema acerca do protocolo, é o fato dele ser essencialmente um "acordo de cavalheiros", uma norma de conduta estabelecida e seguida por todo mundo, mas que não possui amparo legal como um impedimento para a coleta de conteúdos, caso não sejam protegidos por direitos autorais, estes amparados pela DMCA, a lei de copyrights de alcance global.

Mesmo estes não estão em uma situação confortável, após o presidente dos Estados Unidos, Donald Trump, defender com seu Plano de Ação para IA, que as grandes companhias locais do setor (OpenAI, Perplexity, Google, Microsoft, etc.) devem ser permitidas a coletar qualquer coisa que seja em toda a internet, e sem pagar nada a ninguém, porque "a China não faz isso" e de outra forma, é impossível concorrer com o país rival nos mesmos termos.

Nesse entendimento, que Trump quer forçar ao mundo inteiro, nada do que é publicado ou disponibilizado na net seria imune à coleta para alimentar serviços de IA, que já ameaçam seriamente a visitação de sites, mesmo os grandes; por outro lado, muitos também não gostaram da postura da Cloudflare ao bloquear ativamente os crawlers da Perplexity, tomando para si a responsabilidade de agir como a Polícia da Internet, e decidir quem pode e quem não pode operar.

Com a Perplexity desafiando abertamente a manutenção do robots.txt como protocolo necessário, as regras da internet estão sendo reescritas para favorecer IA e startups, que buscam lucrar em cima de todo o conteúdo da rede, protegido contra acesso ou não, com copyright ou não, sem dar satisfação e sem dividir os lucros com ninguém.

Fonte: Cloudflare, Perplexity

Leia mais sobre: Cloudflare, IA, Inteligência Artificial, Perplexity.

IA: briga entre Cloudflare e Perplexity pode mudar a internet

Cloudflare acusa Perplexity de burlar robots.txt para coletar conteúdos restritos; startup diz que empresa de segurança "não entende" a IA

Perplexity dribla robots.txt

IA pode coletar tudo?

relacionados

Comentários

Destaques