EMO AI: inteligência artificial faz pessoas cantarem a partir de fotografias m5iz

Avatar de joão lucas batista
Desenvolvida pelo grupo Alibaba, a nova IA surpreende com o realismo em gerar vídeo de pessoas cantando a partir de fotografias. Veja exemplos

O recém-lançado EMO AI, a inteligência artificial do grupo Alibaba, causou grande repercussão na internet. A ferramenta produz vídeos a partir de fotografias, fazendo o avatar cantar músicas em diversas línguas, com surpreendente realismo. c162

Esse segmento de IA está em avanço significativo ao longo dos anos, surgindo anteriormente com edições de fotografias, quando por meio de apps, era possível trocar de rosto com alguém, colocar filtros e utilizar outras funcionalidades. Agora, a simulação de ações em vídeos tem provocado grande interesse por parte dos internautas, principalmente pelo realismo aplicado nesses conteúdos.

O que é a EMO AI? 6t4n6i

Funcionamento do EMO AI. Imagem: Reprodução/EMO: Emote Portrait Alive

A EMO AI: Emote Portrait Alive é uma ferramenta de criação de conteúdo audiovisual por meio da difusão de áudio e vídeo — ou imagem — ultrarrealista.

A IA foca em simular com precisão e fidelidade os traços faciais do modelo em situações imagináveis a partir de uma fotografia. É possível fazer com que a partir da fotografia de uma pessoa seja produzido um vídeo musical, onde o personagem pode cantar uma música popular, movimentando os lábios e os músculos do rosto, para pronunciar a letra da maneira correta com poses realistas.

Segundo os desenvolvedores do Institute for Intelligent Computing, do grupo Alibaba, os vídeos criados pelo EMO AI podem ter qualquer duração, dependendo apenas do tamanho do arquivo de áudio inserido para a produção do vídeo.

Como a IA funciona? 52l5o

A partir da metodologia utilizada pelos profissionais, o EMO necessita apenas de uma imagem para servir de base na produção do vídeo gerado pela sua inteligência artificial. Em seguida, deve-se inserir um arquivo de áudio para que a ferramenta crie o vídeo com a interpretação do personagem, sincronizando os movimentos labiais com a letra e animando a pessoa, pelo tempo que durar o arquivo de áudio.

Veja abaixo um vídeo utilizando a EMO AI 6l431e

https://www.youtube.com/watch?v=3K5VCQedbT8
Exemplos do uso da EMO AI para criação de vídeo com IA. Vídeo: YouTube/ AI Drop

O vídeo acima utiliza um desenho de anime para criar uma cena simulada pela IA. O EMO AI também conseguiu produzir de maneira satisfatória a movimentação facial e labial da personagem de forma convincente.

Estrutura da ferramenta EMO AI 1473l

A metodologia empregada no desenvolvimento do EMO AI foi aplicada justamente com o propósito de buscar avanços quanto à qualidade de vídeos criados por IA’s. Os pesquisadores tiveram como objetivo encontrar maneiras alternativas para aumentar a qualidade do resultado.

Por conta disso, no estágio inicial do processo, denominado Frames Encoding, uma rede neural chamada ReferenceNet extrai recursos de uma única imagem de referência, simulando os quadros de movimento. Este processo de codificação estabelece a base do vídeo.

Em seguida, o áudio é incorporado, com ao auxílio de um codificador e são aplicadas as máscaras faciais, o que irá possibilitar os movimentos realistas do rosto. Finalizando o processo, o mecanismo Backbone Network fica encarregado de preservar a identidade do personagem e ajustar a velocidade da movimentação facial.

Fases de produção de conteúdo com o EMO AI. Imagem: Reprodução/EMO: Emote Portrait Alive

Apesar do processo inovador, os desenvolvedores do Alibaba relatam em seu artigo científico que encontraram limitações no modelo. Eles citaram que o EMO AI leva mais tempo para produzir conteúdo do que outras IA’s do mesmo segmento e que, em alguns casos, podem surgir outras partes do corpo no vídeo, como, por exemplo, as mãos do personagem.

A busca por IAs que simulam ações 655i2e

Com a crescente compatibilidade de IAs com os sistemas operacionais existentes nos celulares, a busca por essas ferramentas disparou nos últimos anos. Atualmente é possível encontrar várias opções de aplicativos que trocam o rosto do usuário por algum famoso, o envelhece, o rejuvenesce, corrige expressões faciais, entre outras funcionalidades.

Entre essas possibilidades, destaca-se o deepfake, que é o resultado da combinação facial ou sua substituição por meio de uma IA. Esse recurso pode ser utilizado para diversos fins, como humorístico, político ou até mesmo pornográfico. Com relação à política, no Brasil, o TSE ligou o alerta sobre essa questão, já prevendo o uso de deepfake nas eleições de outubro deste ano.

Neste caso, o deepfake é um prato cheio para as fake news, pois geralmente retratam um candidato em situações mentirosas ou simulando falas polêmicas, das quais ele nunca falou, motivadas por interesses políticos.

Uso de deepfake para trocar o rosto do rapaz à esquerda pelo ator americano Tom Cruise. Imagem: Reprodução

EMO AI produz expressões em diversas línguas 665l25

Outra barreira superada pelas IAs, inclusive o EMO AI, é a produção de vídeos em diferentes idiomas. Essas tecnologias compreendem diversos idiomas, o som de suas palavras e suas pronúncias. Com isso, é possível produzir conteúdo audiovisual em muitas línguas.

Mulher gerada por IA cantando em chinês. Reprodução/ EMO: Emote Portrait Alive

Confira abaixo mais vídeos gerados pelo EMO AI 1e5327

O personagem Coringa (Joker, 2019) a partir de um frame do filme, utilizado no EMO. Vídeo: Reprodução/ EMO: Emote Portrait Alive
Ator Leonardo DiCaprio cantando Eminem com o uso de IA. Reprodução: EMO: Emote Portrait Alive

Fontes: NowadAls, Arxiv, Humanaigc.

Veja também:

Revisado por Glauco Vital em 28/2/24.

Deixe um comentário Cancelar resposta 3j4g1g
Posts Relacionados 6r1fc

Hisense mostra produtos que vão chegar ao Brasil em 2025 3ow3l

Além de uma nova linha de geladeiras conectadas, empresa mostrou projetor C2 Ultra, que exibe tela de até 300 polegadas com resolução 4K. Veja tudo o que foi anunciado
Avatar de victor pacheco
Leia Mais

Bespoke AI: Samsung mostra produtos de casa conectada no México 705d4i

Casa inteligente da Samsung na Cidade do México mostra como a vida pode ser mais prática com Inteligência Artificial e o ecossistema SmartThings. Veja todos os produtos
Avatar de bruno martinez
Leia Mais

Veja o que esperar do Galaxy Z Fold7 e Z Flip7 27505k

Novos dobráveis da Samsung chegarão em breve e devem ser mais leves, ter processador do ano e câmeras melhores, com até mesmo uma versão de baixo custo do Z Flip. Veja tudo o que sabemos.
Avatar de victor pacheco
Leia Mais