Google apresenta nova IA que cria sons para vídeos

Por Igor Almenara Carneiro

18/06/2024 - 12:452 min de leitura

Google apresenta nova IA que cria sons para vídeos

Fonte :

Imagem de Google apresenta nova IA que cria sons para vídeos no tecmundo

A DeepMind, braço do Google focado em inteligência artificial (IA), apresentou uma nova ferramenta capaz de criar som para vídeos e descrição em texto. O recurso interpreta o comando do usuário e combina com o contexto das imagens para criar o áudio desejado.

Ainda sem nome, a solução é uma ferramenta de "vídeo para áudio" ("video-to-audio", ou "V2A", em inglês). A plataforma aproveita as capacidades de interpretação textual e visual dos modelos da DeepMind para gerar um áudio específico para uma variedade de contextos, incluindo músicas e diálogos.

Segundo o Google, a ferramenta tem a capacidade de entregar várias possibilidades, como trilhas sonoras para gravações, filmes, cenas de conversas e som ambiente.

Em comunicado, a empresa explicou como a tecnologia funciona. Há uma combinação de codificadores de vídeo e texto, junto a um modelo de difusão, este responsável por gerar um áudio ainda em compressão que, após decodificado, gera o áudio final.

Assim como em geradores de imagens, a IA da DeepMind não requer que o usuário seja meticuloso na descrição em texto — mas quanto mais detalhes, melhor. A empresa menciona que a ferramenta pode gerar uma quantidade "ilimitada" de efeitos sonoros para vídeos.

O resultado ainda tem cara de uma produção gerada por IA. O som apresenta uma alta qualidade e a DeepMind trabalha em melhorar a sincronização de lábios com diálogo.

Ainda que a ferramenta esteja em seus primeiros estágios de desenvolvimento e não esteja disponível para o público geral, o estudo representa um importante avanço em inteligência artificial e na preparação de ferramentas mais robustas. 

Além disso, a solução do Google é um pouco mais robusta do que as que estão disponíveis em plataformas concorrentes, como o gerador de áudios da ElevenLabs.

Agora, a ferramenta de vídeo para áudio da DeepMind passará por uma profunda avaliação de segurança e experimentação. Não há previsão para o lançamento definitivo da novidade.

Veja também


Por Igor Almenara Carneiro

Especialista em Redator

Redator de tecnologia desde 2019, ex-Canaltech, atualmente TecMundo e um assíduo universitário do curso de Bacharel em Sistemas de Informação. Pai de pet, gamer e amante de músicas desconhecidas.