Meio Bit » Ciência » OpenAI: "treinar IAs em material com copyright é uso aceitável"

OpenAI: "treinar IAs em material com copyright é uso aceitável"

OpenAI invoca uso aceitável para se safar de processos, citando que IAs treinadas com material protegido "trarão benefícios" para a sociedade

09/01/2024 às 9:32

A OpenAI está determinada a combater o que considera um ataque ao desenvolvimento das IAs generativas, o copyright. Não é segredo que suas soluções, e de outras companhias, usaram quantidades pantagruélicas de dados dos mais diversos para desenvolver seus algoritmos, e boa parte deles é protegido por direitos autorais.

Entrada do escritório da OpenAI no Edifício Pioneer, em São Francisco, EUA (Crédito: Christie Hemm Klok)

Entrada do escritório da OpenAI no Edifício Pioneer, em São Francisco, EUA (Crédito: Christie Hemm Klok)

Como a companhia de Sam Altman não pagou um centavo a quem de direito, os processos começaram a vir de todos os lados, amparados por novas leis e regulações; no entanto, a OpenAI tem uma carta na manga, a mesma que permitiu ao Google se safar de um processo da Oracle: o uso aceitável.

OpenAI e o uso aceitável

Quando o ChatGPT, Stable Diffusion, e outros modelos de IAs generativas começaram a pegar tração em 2023, não demorou muito para detentores de conteúdo, em diversos setores, apontarem que os algoritmos teriam sido alimentados com dados pertencentes a outros, sem que as companhias pedissem autorização para tal. Isso incluiu também os protegidos por copyrights, que pertencem a artistas, escritores, companhias, etc., com o mesmo modus operandi.

Conteúdos com direitos autorais, no entanto, são disponibilizados para uso, dependendo de cada caso, com uma série de regras e restrições, e boa parte delas envolve pagamento de royalties, o que, obviamente, não foi feito por nenhuma das empresas responsáveis pelos algoritmos generativos. As companhias e desenvolvedores só rodaram seus crawlers na net, coletaram tudo o que puderam, e usaram.

Os primeiros indícios de que algo errado não estava certo, vieram quando artistas e autores começaram a apontar as óbvias bases usadas pelas IAs para gerar ilustrações e textos. Não demorou muito, e o repositório Getty Images detectou uso de seus conteúdos protegidos, mais especificamente a presença de sua marca d'água, em imagens geradas pelos algoritmos.

Claro que deu processo, recentemente autorizado a ir a julgamento no Reino Unido, no que a corte encontrou mérito nas alegações do Getty Images contra a Stability AI, empresa responsável pelo Stable Diffusion. Caso a IA saia derrotada, o caso deverá abrir precedentes para decisões em outros, como a ação coletiva movida por diversos autores contra a OpenAI.

No processo, a empresa de Sam Altman teria usado textos de obras protegidas sem que os autores (e editoras) fossem pagos pelo uso; o processo é similar ao recentemente movido pelo jornal The New York Times, que acusa o ChatGPT de "regurgitar" artigos, com base nos prompts definidos pelo usuário. Neste caso, a Microsoft também está sendo processada, por ser a principal financiadora da startup, e parceira através do Bing Chat. Outras partes estão também processando ambas, pelo mesmo motivo.

A OpenAI se defende, claro. Em uma postagem no seu blog, a companhia diz que o NYTimes "não contou a história completa", visto que não compartilhou os supostos prompts que levaram o ChatGPT a reproduzir seus artigos, o que não pôde ser reproduzido do outro lado, antes de entrar com o processo. E para se proteger, sacou a carta do uso aceitável.

Esta imagem foi gerada pelo Stable Diffusion (Crédito: Getty Images)

Esta imagem foi gerada pelo Stable Diffusion (Crédito: Getty Images)

Esta linha de pensamento, característica da lei de direitos autorais dos Estados Unidos, diz que o uso de conteúdos protegidos por direitos autorais pode ser feito, mesmo sem autorização dos detentores dos copyrights, em alguns casos específicos, geralmente quando voltado a benefícios à sociedade, com produtos e bens acessíveis, educação, etc.

O grande ponto de discussão, reside no fato de que a aplicação do uso aceitável é feita sem visar o lucro, ou seja, para a criação de conteúdos derivados desprovidos de fins lucrativos, para benefício da população. Embora relativamente acessíveis, nem todas as IAs generativas são gratuitas, sem contar que OpenAI e cia. estão ganhando muito dinheiro de outras formas, com parcerias e especulação.

Caso Google vs. Oracle abriu precedente

A OpenAI diz que o entendimento do uso aceitável se mantém, no que o ChatGPT e outras soluções "proverão benefícios à toda a humanidade", ao mesmo tempo que reconheceu, em um documento (cuidado, PDF) submetido a uma comissão instaurada pela Câmara dos Lordes, no Reino Unido, ser "impossível" treinar soluções generativas sem usar conteúdos protegidos por copyright, e dessa forma, as empresas devem ser permitidas a fazê-lo sem pagar ninguém, sob a desculpa de que "a IA irá beneficiar todo mundo no futuro".

Claro que a maioria dos legisladores não está engolindo essa lógica, a Lei de IA da União Europeia é bastante específica nesse caso, de que todas as fontes usadas no treinamento devem ser reveladas em público, o que pode ser (e será) usado para viabilizar processos. Tal cláusula existe para esse fim específico, dar direito aos detentores dos copyrights tirarem a parte que lhe cabe, ou ordenar aos devs que não usem seus conteúdos.

No entanto, a jogada da OpenAI tem um precedente relevante, de empresa que usou o argumento do uso aceitável aplicado a um produto comercial, o Google. Em 2011, a companhia foi processada pela Oracle, após esta adquirir a Sun Microsystems, e descobrir que as APIs do Java usadas no desenvolvimento do Android eram apoiadas em um acordo verbal, sem nada assinado.

Como a companhia passou a ser dona dos assets da Sun, ela tinha o direito de usá-los como bem entendesse, o que incluía cobrar pelo acesso retroativo, o que implicaria em uma restituição de US$ 8,8 bilhões, que o Google, em tese, lhe devia.

Caso Oracle vs. Google se arrastou por uma década, e terminou com vitória da gigante das buscas (Crédito: Reprodução/Shueisha/Ronaldo Gogoni/Meio Bit)

Caso Oracle vs. Google se arrastou por uma década, e terminou com vitória da gigante das buscas (Crédito: Reprodução/Shueisha/Ronaldo Gogoni/Meio Bit)

O Google se defendeu, apoiando-se no uso aceitável ao afirmar que o Android proveu inúmeros benefícios e revolucionou a telefonia celular (depois do iPhone, óbvio), e mesmo sendo um SO ligado a diversos produtos comerciais, os benefícios superavam a mesquinharia da Oracle.

No fim, o argumento colou junto à Suprema Corte dos Estados Unidos, e a gigante de Mountain View saiu vencedora; na decisão, o júri definiu que as APIs usadas representavam uma porcentagem ínfima do código do Android, e foram empregadas para que programadores "usassem seus talentos acumulados, para desenvolver um software novo e inovador", o que caracterizou uso aceitável, mesmo com o produto final (smartphones Android) sendo comercial.

O argumento da OpenAI é simples: como os direitos autorais "cobrem virtualmente todos os tipos de expressão humana", de posts em blogs e fóruns a fotos e ilustrações, de código-fonte a documentos governamentais, limitar o acesso das IAs generativas a conteúdos em domínio público, ou disponibilizados por regras de open source, ou copyleft, limitariam enormemente o que tais soluções podem fazer, tornando-as "inadequadas para as necessidades de hoje".

Ao mesmo tempo, a empresa lembra que segue as leis de direitos autorais, e fornece ferramentas de opt-out às companhias e detentores de copyrights, para que estes solicitem a remoção de suas obras da base de dados da empresa, mas admite haver "muito o que fazer" para "empoderar e apoiar criadores de conteúdo", especialmente os pequenos, que têm dificuldades severas para competir com soluções de IA, em diversos cenários, e ter seu conteúdo afanado só piora as coisas.

Alguns dos processos movidos contra a OpenAI e Microsoft, e outras, acusam as companhias de "criar um negócio multibilionário", enquanto se negam a pagar pelos conteúdos que usaram, sejam eles grandes como George RR Martin ou John Grisham, ou pequenos como o artista freelancer, que compartilha suas artes em sites como o DeviantArt, que também tentou usar os conteúdos dos usuários para treinar uma IA própria, que chegou a ser processada por isso, antes de ter sua barra limpa.

No passado, a OpenAI afirmava que o ChatGPT "não criava conteúdo generativo", o que está desmentindo agora, após pressão de reguladores e as evidências aparecendo em todos os cantos. Sua aposta é de que o argumento do uso aceitável cole, assim como no caso do Google, cuja vitória contra a Oracle poderia ser um precedente.

Claro, o que a empresa e outras no ramo das IAs deverão provar, é que os algoritmos realmente trarão benefícios à sociedade, o ponto-chave que favoreceu o Android.

Fonte: Popular Science

relacionados


Comentários