A OpenAI, criadora do ChatGPT, revelou recentemente o lançamento de um modelo de inteligência artificial generativa, denominado ‘Sora’, capaz de produzir vídeos em alta resolução (1080p) com duração de até um minuto a partir de solicitações em texto. A plataforma, segundo a OpenAI, é capaz de criar cenas complexas com múltiplos personagens e diferentes movimentos, indo além dos modelos concorrentes que operam com durações entre quatro e dez segundos.
Apesar de sua promessa inovadora, o acesso à nova plataforma ainda está restrito a avaliadores de riscos, além de um número limitado de artistas visuais e produtores de vídeos, por razões de segurança. A empresa, no entanto, não divulgou uma projeção para o lançamento público.
Para prevenir o uso indevido de vídeos falsos, conhecidos como deepfakes, a OpenAI planeja adicionar um selo criptografado aos materiais gerados pelo Sora. Além disso, a empresa pretende implementar o filtro de abusos já presente no ChatGPT e desenvolveu um segundo classificador de imagens para avaliar a segurança de cada imagem gerada.
No entanto, o modelo ainda apresenta algumas limitações, como a falta de coerência em efeitos físicos, como direção da luz e do vento, e dificuldades em reproduzir relações de causa e efeito. Instruções espaciais, como direita e esquerda, também podem receber respostas incorretas.
Sora foi treinado com base em uma coleção de vídeos para simular características do mundo real, e seu nome faz referência à palavra japonesa para “céu”, que também significa a “concha que envelopa o mundo”. A estratégia adotada pela OpenAI para manter a coerência nos vídeos por um minuto é semelhante à usada no ChatGPT, prevendo os próximos quadros mais prováveis em uma sequência de imagens.
A OpenAI destaca a importância da Sora como um passo crucial para aprimorar a compreensão dos modelos de inteligência artificial sobre o mundo. O objetivo final da empresa é construir um modelo de inteligência artificial geral capaz de reproduzir todas as capacidades humanas.