Programa de conversão de texto para vídeo necessita apenas de uma foto.

Menos de um ano atrás, a Microsoft apresentou sua ferramenta chamada VASA-1, que permitia transformar fotos em vídeos animados. O mais incrível era que as pessoas nas imagens podiam falar, dando vida às fotos de uma maneira impressionante.

Este projeto surpreendeu a todos, especialmente em abril de 2024, quando já havia surgido o Sora, uma ferramenta de geração de vídeo da OpenAI. Embora o Sora também fosse promissor, não tinha as mesmas tecnologias avançadas para animação facial e sincronia de áudio que a VASA-1.

A Microsoft nunca teve a intenção de liberar o VASA-1 para o público. A preocupação era que uma ferramenta assim pudesse ser usada para criar vídeos enganosos, fazendo qualquer um dizer o que bem entendesse. A pesquisa da Microsoft já mostrava que era só uma questão de tempo até que outros criassem tecnologias semelhantes.

Agora, a empresa chinesa ByteDance, que é dona do TikTok, desenvolveu uma ferramenta de IA chamada OmniHuman-1. Essa nova tecnologia consegue fazer o que a VASA-1 fazia, mas de um jeito ainda mais avançado.

Com um único clique em uma foto, o OmniHuman-1 transforma a imagem em um vídeo animado. A pessoa na foto fala em sincronia com o áudio fornecido, assim como a VASA-1, mas ele vai além. O OmniHuman-1 também anima movimentos do corpo e gestos, deixando tudo mais dinâmico.

Não é surpresa que a ferramenta da ByteDance se assemelhe à VASA-1. Os pesquisadores da empresa mencionaram que usaram a VASA-1 como base e até pegaram amostras de áudio da Microsoft e de outras empresas.

O OmniHuman-1 consegue utilizar múltiplas fontes de entrada ao mesmo tempo. Isso inclui imagens, áudio, texto e poses do corpo. O resultado é uma animação que parece muito mais fluída e precisa.

Para criar o OmniHuman-1, a ByteDance usou 19.000 horas de gravações em vídeo. Esse trabalho árduo fez com que a IA aprendesse a criar sequências de vídeo que são quase indistinguíveis de gravações reais. Algumas das amostras mostram resultados impressionantes, enquanto outras revelam que ainda há um toque de IA nas expressões, especialmente nos movimentos da boca.

Um dos momentos marcantes do OmniHuman-1 é quando ele mostra um “discurso de Albert Einstein”. Outro exemplo interessante é uma animação da Taylor Swift cantando a música tema do anime Naruto em japonês.

A nova ferramenta permite criar vídeos de pessoas (reais ou fictícias) falando ou cantando em várias situações. Isso levanta preocupações, já que há o risco de indivíduos mal-intencionados usarem a tecnologia para enganar ou como parte de fraudes, como a criação de falsos depoimentos de celebridades.

O OmniHuman-1 também se sai bem na animação de personagens de desenhos animados e jogos. Isso é útil para criadores que desejam capturar expressões faciais e a fala desses personagens de maneira mais precisa.

Outro ponto interessante é que o OmniHuman-1 pode gerar vídeos de duração ilimitada. Até agora, os exemplos disponíveis variam entre cinco e 25 segundos. Se a memória for uma limitação, a capacidade do IA para criar clipes mais longos não é o problema.

ByteDance, ao lançar o OmniHuman-1, demonstra uma evolução esperada na sua linha de produção de IA. A companhia também apresentou recentemente um projeto chamado INFP, que visa animar expressões faciais durante conversas. Conhecida pelo seu aplicativo de edição CapCut, a ByteDance está se consolidando ainda mais no mercado de IA.

É difícil dizer quando o OmniHuman-1 estará disponível para o público. Contudo, a ByteDance criou um site para fornecer mais informações sobre o projeto de pesquisa e disponibilizar amostras.

Os pesquisadores da ByteDance mencionaram “preocupações éticas” nos documentos, o que é um sinal positivo. Isso sugere que a empresa está pensando em como lançar essa nova ferramenta com responsabilidade.

Se o OmniHuman-1 for lançado muito rapidamente, poderemos ver vídeos realistas de celebridades ou até mesmo de pessoas inventadas, fazendo ou dizendo qualquer coisa que o criador desejar, em diversas línguas. E os usos vão além do entretenimento, podendo ser usados para desinformação ou fraudes.

Essas tecnologias têm um grande potencial, mas também trazem desafios e questões éticas que precisam ser discutidas com cautela. O futuro da animação por IA provavelmente será ainda mais interessante e, ao mesmo tempo, desafiador para lidar.

11 motivos para atualizar seu Mac para o macOS Sequoia agora mesmo

Meta Llama 2025: A Tsunami de IA de Código Aberto

6 recursos rumores para o Apple Watch SE 3

Este avanço chinês pode revolucionar os microprocessadores para sempre.

Estudo aponta que a IA ainda não está substituindo empregos nem melhorando salários.

Sensor de frequência cardíaca do Apple Watch Series 10 é um desastre

Os Bastidores da Ficção: O Que Há Por Trás da Internação de Benedito Ruy Barbosa?

Desvendando a Metamorfose: O Que Viu Quando Se Olhou no Espelho?

Dhomini Revela Segredo Emocionante Para Carol e Desperta Suspeitas de Eliminação no Power Couple!

Descubra o Encanto Secreto por Trás de Júlia Anquier, a Filha de Débora Bloch que Surpreendeu ao Casar com uma Cantora!

Em Goiânia, aumento na demanda por aluguel eleva preços de imóveis nas áreas centrais.

CNJ nega análise de processo do Incra contra os Bettim

Seminário em Rio Quente – Entidade de Segurança Pública

Descubra o Segredo Surpreendente que Transformou Meu Sono Após 6 Meses de Aulas de Boxe!

Posts Recentes

Os Bastidores da Ficção: O Que Há Por Trás da Internação de Benedito Ruy Barbosa?

Desvendando a Metamorfose: O Que Viu Quando Se Olhou no Espelho?

Diversos

Homem é detido em flagrante por violação de medida protetiva em São Luís de Montes Belos.

Segredo Explosivo de Belisa Ilumina Sombras Ocultas na Família Barros

Programa de conversão de texto para vídeo necessita apenas de uma foto.

Posts Relacionados