Menos de um ano atrás, a Microsoft apresentou sua ferramenta chamada VASA-1, que permitia transformar fotos em vídeos animados. O mais incrível era que as pessoas nas imagens podiam falar, dando vida às fotos de uma maneira impressionante.
Este projeto surpreendeu a todos, especialmente em abril de 2024, quando já havia surgido o Sora, uma ferramenta de geração de vídeo da OpenAI. Embora o Sora também fosse promissor, não tinha as mesmas tecnologias avançadas para animação facial e sincronia de áudio que a VASA-1.
A Microsoft nunca teve a intenção de liberar o VASA-1 para o público. A preocupação era que uma ferramenta assim pudesse ser usada para criar vídeos enganosos, fazendo qualquer um dizer o que bem entendesse. A pesquisa da Microsoft já mostrava que era só uma questão de tempo até que outros criassem tecnologias semelhantes.
Agora, a empresa chinesa ByteDance, que é dona do TikTok, desenvolveu uma ferramenta de IA chamada OmniHuman-1. Essa nova tecnologia consegue fazer o que a VASA-1 fazia, mas de um jeito ainda mais avançado.
Com um único clique em uma foto, o OmniHuman-1 transforma a imagem em um vídeo animado. A pessoa na foto fala em sincronia com o áudio fornecido, assim como a VASA-1, mas ele vai além. O OmniHuman-1 também anima movimentos do corpo e gestos, deixando tudo mais dinâmico.
Não é surpresa que a ferramenta da ByteDance se assemelhe à VASA-1. Os pesquisadores da empresa mencionaram que usaram a VASA-1 como base e até pegaram amostras de áudio da Microsoft e de outras empresas.
O OmniHuman-1 consegue utilizar múltiplas fontes de entrada ao mesmo tempo. Isso inclui imagens, áudio, texto e poses do corpo. O resultado é uma animação que parece muito mais fluída e precisa.
Para criar o OmniHuman-1, a ByteDance usou 19.000 horas de gravações em vídeo. Esse trabalho árduo fez com que a IA aprendesse a criar sequências de vídeo que são quase indistinguíveis de gravações reais. Algumas das amostras mostram resultados impressionantes, enquanto outras revelam que ainda há um toque de IA nas expressões, especialmente nos movimentos da boca.
Um dos momentos marcantes do OmniHuman-1 é quando ele mostra um “discurso de Albert Einstein”. Outro exemplo interessante é uma animação da Taylor Swift cantando a música tema do anime Naruto em japonês.
A nova ferramenta permite criar vídeos de pessoas (reais ou fictícias) falando ou cantando em várias situações. Isso levanta preocupações, já que há o risco de indivíduos mal-intencionados usarem a tecnologia para enganar ou como parte de fraudes, como a criação de falsos depoimentos de celebridades.
O OmniHuman-1 também se sai bem na animação de personagens de desenhos animados e jogos. Isso é útil para criadores que desejam capturar expressões faciais e a fala desses personagens de maneira mais precisa.
Outro ponto interessante é que o OmniHuman-1 pode gerar vídeos de duração ilimitada. Até agora, os exemplos disponíveis variam entre cinco e 25 segundos. Se a memória for uma limitação, a capacidade do IA para criar clipes mais longos não é o problema.
ByteDance, ao lançar o OmniHuman-1, demonstra uma evolução esperada na sua linha de produção de IA. A companhia também apresentou recentemente um projeto chamado INFP, que visa animar expressões faciais durante conversas. Conhecida pelo seu aplicativo de edição CapCut, a ByteDance está se consolidando ainda mais no mercado de IA.
É difícil dizer quando o OmniHuman-1 estará disponível para o público. Contudo, a ByteDance criou um site para fornecer mais informações sobre o projeto de pesquisa e disponibilizar amostras.
Os pesquisadores da ByteDance mencionaram “preocupações éticas” nos documentos, o que é um sinal positivo. Isso sugere que a empresa está pensando em como lançar essa nova ferramenta com responsabilidade.
Se o OmniHuman-1 for lançado muito rapidamente, poderemos ver vídeos realistas de celebridades ou até mesmo de pessoas inventadas, fazendo ou dizendo qualquer coisa que o criador desejar, em diversas línguas. E os usos vão além do entretenimento, podendo ser usados para desinformação ou fraudes.
Essas tecnologias têm um grande potencial, mas também trazem desafios e questões éticas que precisam ser discutidas com cautela. O futuro da animação por IA provavelmente será ainda mais interessante e, ao mesmo tempo, desafiador para lidar.