A sabedoria popular diz que uma imagem vale mais do que mil palavras. O modelo de inteligência artificial (IA) DALL-E 2 transforma isso em um mantra. Lançado em abril pela OpenAI (empresa fundada por Elon Musk em 2015 (hoje, o bilionário não faz mais parte da companhia), o sistema é capaz de gerar, a partir de comandos escritos, imagens impressionantes tanto em qualidade quanto em criatividade – a mistura de arte com tecnologia está implícita no nome, pois combina o nome do robô Wall-E, do filme homônimo do estúdio de animação Pixar, e o sobrenome do pintor surrealista espanhol Salvador Dalí.
O DALL-E 2 é uma versão modificada do GPT-3, IA capaz de gerar texto também desenvolvido pela OpenAI (empresa fundada por Elon Musk em 2015; hoje, o bilionário não faz mais parte da companhia), e aplica uma técnica chamada de diffusion (ou difusão).
Proposto em 2015, o método tem dois processos. O primeiro acrescenta ruído (ou distorções) em um banco de imagens com descrições (como a foto de um cachorro com uma legenda descrevendo o animal) até que seja impossível identificar os conteúdos. O segundo reverte o processo de ruído até que as imagens sejam formadas.
Em testes, a técnica mostrou-se eficiente não apenas na qualidade das imagens, mas também por ser menos suscetível a erros de funcionamento – os resultados, por exemplo, deixaram para trás as GANs, redes de IA que deram origem aos deep fakes. Assim, mesmo com um número de parâmetros (representações matemáticas de padrões) relativamente pequenos (3,5 bilhões), o DALL-E 2 é capaz de gerar imagens com resolução quatro vezes superior às da primeira geração.
As imagens abaixo foram geradas por IA, usando os modelos DALL-E 2, Midjourney e Stable Diffusion)

“O DALL-E 2 é uma sacada revolucionária. As técnicas já eram conhecidas, mas ninguém tinha pensado em usá-las para gerar imagens”, conta Fábio Cozman, diretor do Centro para Inteligência Artificial (C4AI) da Universidade de São Paulo (USP).
O impacto da descoberta foi sentido na maneira como o DALL-E 2 influenciou a criação de modelos parecidos. Poucos meses após a divulgação, surgiram a Midjourney e a Stable Diffusion, duas IAs de geração de imagens com resultados igualmente impressionantes. Não apenas isso, a Meta, holding do Facebook, apresentou uma IA capaz de gerar vídeo a partir de comandos de texto.





