Meio Bit » Ciência » SORA - a incrível evolução dos vídeos gerados por IA

SORA - a incrível evolução dos vídeos gerados por IA

Sora é a nova ferramenta da OpenAI, capaz de gerar vídeos consistentes com até 1min de duração, e é... impressionante

21/02/2024 às 18:35

SORA é a nova tecnologia de geração de vídeo via Inteligência Artificial da OpenAI, e algo que eu garantiria com propriedade que não apareceria antes de uns 4 ou 5 anos de pesquisa. Normalmente eu diria que é bom estar errado, mas desta vez até eu estou assustado.

Sora é impressionante (Crédito: Stable Diffusion / Editoria de Arte)

Existem várias tecnologias para geração de imagens via IA, Sora usa difusores, como o Stable Diffusion. Resumindo BEM, já que expliquei em vários artigos como a tecnologia funciona, a Inteligência Artificial é treinada para reconhecer imagens partindo de ruído aleatório, da mesma forma que conseguimos identificar objetos em nuvens, rostos em folhas e divindades em torradas.

O truque é ensinar à IA quando ela reconheceu um objeto, ir adicionando ruído à imagem e recompensando quando mesmo assim ela consegue reconhecer o objeto. Chega a um ponto em que para nós a imagem é puro ruído aleatório, mas a IA consegue forçar um padrão e reconstruir um objeto.

Imagem sendo progressivamente destruída com adição de ruído gaussiano (Crédito: nVidia)

Se você treinar com bastante variedade, ela aprende o CONCEITO do objeto, então se você mandar procurar um gato, e ela tiver estudado dezenas de milhares de imagens, ela terá um modelo estatístico de como um gato deve se parecer, e extrairá do ruído uma imagem que não existia antes.

Um gato genérico (Crédito: Stable Diffusion)

Sora faz a mesma coisa, mas com vídeo. Em 3D.

Para quem acompanha o mundo da IA, lendo toneladas de papers e até quase entendendo alguns, Sora foi uma surpresa. A quantidade de problemas para gerar vídeos com consistência é ordens de magnitude maior do que “simples” imagens.

Até agora tínhamos dois métodos principais para gerar vídeos via IA: AnimateDiff + ControlNet e Stable Video Diffusion.

O AnimateDiff usa modelos treinados com vídeos,focado em movimento. Ele é capaz de criar imagens e animá-las em lotes de 16 frames, mas quase sem controle. Com paciência dá pra produzir muita coisa legal, mas nada que ameace a pixar.

Com o uso de ferramentas como ControlNet, OpenPose e outras, podemos extrair vetores de movimento de outros vídeos, e aplicá-los a animações. Dá trabalho mas em teoria é suficiente para fazer uma animação completa, simulando MotionCap, sem o inconveniente de ficar colando bolas de ping-pong nos outros.

Stable Video Diffusion é um modelo exclusivamente treinado para vídeo, capaz de gerar TXT2VID e IMG2VID, ou seja, receber como entrada um prompt ou uma imagem. Os resultados são (OK, eram, seis meses atrás) impressionantes.

Sora colocou essas tecnologias na idade da pedra.

Ao contrário das tecnologias anteriores, que mal conseguiam manter a consistência por algumas dezenas de frames (25 e SVD começa a arregar), Sora consegue gerar vídeos com um minuto de duração.

Sora tem consistência total, inclusive consegue permanência de objeto, coisas podem ser obscurecidas por outras temporariamente, e voltam a aparecer. Isso para um modelo de difusão é extremamente complexo.

O treinamento foi baseado no conceito de patches, onde cada elemento do vídeo é tratado como um elemento individual, o que dá muito mais flexibilidade. Sora não é um gerador de pixels, é um gerador de mundos, que tenta manter consistência e só então finaliza transformando em imagens.

Um fenômeno não-planejado e percebido depois que Sora começou a gerar vídeos é que ele desenvolveu sozinho vários modelos internos de simulação de física. Dinâmica de fluidos, gravidade, luz, ray tracing, Sora aprendeu tudo sozinho estudando os vídeos usados em seu treinamento, o resultado são imagens impressionantes como este prompt de dois navios-pirata em uma xícara de café.

Toda a movimentação das ondas, algo que era quase impossível no tempo de Titanic, e até hoje é algo caro e demorado em Hollywood, foi inferida pelo Sora, sem uma linha de programação ou configuração.

E ao contrário das soluções do Stable Diffusion, Sora usa GPT-3 (pelo menos) para interpretar os prompts, conseguindo muito mais fidelidade e capacidade de compreensão, da mesma forma que o DALL-E 3 entende muito melhor o que a gente quer que ele desenhe.

Isso faz com que Sora não só gere o que a gente pede, mas altere vídeos pré-existentes.

Exato, Sora aceita vídeos e você pode comandar alterações neles.

Ah, Sora também cria vídeos partindo de imagens fixas.

Uma capacidade quase literalmente surreal é combinar dois vídeos existentes em um terceiro. É um resultado quase onírico, pura matemática renderizando algo digno de Lorde Morpheus. 

Sora ainda tem muitas limitações, além do limite de um minuto. Várias simulações físicas não estão corretamente implementadas, há inconsistências com objetos e principalmente nas imagens de fundo, coisas tendem a desaparecer, mas o que os haters não estão entendendo, junto com os negacionistas, é que estamos vendo a idade da pedra dessa tecnologia.

Reza a lenda que depois que Michael Faraday fez uma demonstração dos princípios de indução magnética, gerando eletricidade a partir de campos magnéticos, um ministro ou outro alto-burocrata perguntou de que servia aquela tecnologia.

Faraday teria respondido “Eminência, de que serve um recém-nascido?”

Eu comentei no Xwiter que Sora é o 14 Bis, o povo está desqualificando Santos Dumont por não ter construído um SR-71. É uma absurda falta de imaginação achar que estamos vendo a versão final dessa tecnologia. 

Durante parte do Dia Sam Altman ficou brincando de receber prompts de seguidores e gerar vídeos com o Sora, que continua com acesso restrito somente aos VIPs da OpenAI. A capacidade de criar um vídeo consistente do zero, em FullHD, em alguns minutos, é assustadora, mesmo que isso exija um datacentre monstruoso. 

Algum tempo atrás eu demonstrei o Stable Diffusion XL Turbo, rodando basicamente em tempo real.

É uma ferramenta que muda tudo, você pode rascunhar storyboards, planejar cenas, ilustrações, mais rápido que qualquer desenhista. Ilustradores podem compor cenas e quadros, planejamentos que levariam dias e dias com idas e vindas com o cliente podem ser feitos na hora.

Extrapole para vídeo. Imagine pré-visualizar uma cena completa, apenas descrevendo em detalhes para a Inteligência Artificial. Hoje há empresas inteiras dedicadas a isso, custando caro e levando bastante tempo.

Há um povo falando que vamos alimentar a IA com um livro e ela produzirá um filme completo, mas isso é ficção científica, é impossível, isso é coisa pro futuro distante, tipo uns daqui a uns 5 anos.

Sora é só o começo. É fácil imaginar um professor planejando aulas e descrevendo os gráficos e vídeos que precisa para explicar os conceitos que usará naquele dia, assim como é fácil imaginar um aluno em casa pedindo para seu personagem preferido explicar o que ele não entendeu.

Óbvio, o principal uso dessa tecnologia será Pr0n, mas isso é a norma desde Gutemberg.

Quanto a Hollywood, não acho que a indústria será dizimada por Sora ou qualquer outra IA generativa. A IA é tão boa quanto seu prompt, se você não souber o que está pedindo, o resultado será medíocre.

Nenhuma IA irá escrever o próximo Casablanca, não sem um input de qualidade. E aí caímos no clássico meme de Eu, Robô, que se tornou incrivelmente desatualizado. Quando Will Smith pergunta a Sonny, o robô, se ele é capaz de escrever uma sinfonia, pintar uma obra-prima, Sonny retruca: “E você é capaz?”

Com o prompt correto a IA pode criar imagens lindas. O problema é o prompt. 

Hoje qualquer zé-ruela publica livros, não há mais crivo da editora, qualquer um escreve e disponibiliza seus livros na Internet. O resultado foi uma queda incrível na qualidade média do material publicado, 99% dos livros em autopublicação na Amazon são lixo.

A ferramenta é isso, só uma ferramenta. Se for bem-usada, ela abre espaço para criatividade, permite que boas idéias ganhem vida. Gente incapaz de desenhar uma linha-reta está lançando histórias em quadrinhos. Programadores com boas ideias, mas sem capacidade de desenhar estão lançando RPGs. Artistas que são um zero em programação estão desenvolvendo jogos com ajuda do ChatGPT.

Ferramentas sempre ampliam, nunca reduzem. Ninguém deixa de fazer algo porque uma ferramenta foi lançada. Reclamar disso é dizer que o cinema sonoro desempregou pianistas e desenhistas de cartões de falas. 

Sora, ou mais precisamente a tecnologia da qual ela faz parte, irá mudar o mundo, muito mais do que a Internet, muito mais do que a Revolução Industrial, e ela é assustadora por ser uma tecnologia que afeta as atividades mais nobres.

Todo o povo iluminado ignorou solenemente o avanço tecnológico que dizimou profissões como ascensoristas, acendedores de lampião, operadores de escores em estádios, mas agora o alvo são artistas, escritores, redatores, ilustradores, o povo que secretamente se considerava “superior” aos meros trabalhadores braçais.

Pois bem, crianças, parece que o jogo virou… 

Leia mais sobre: , , , , .

relacionados


Comentários