VLOGGER: AI do Google cria avatar realista a partir de uma foto e sua voz pode controlá-lo

Renê Fraga
3 min de leitura

Nos últimos tempos, os pesquisadores do Google têm trabalhado incansavelmente, publicando uma série de novos modelos e ideias.

O mais recente é uma forma de transformar uma imagem estática em um avatar controlável, surgindo a partir de um agente de inteligência artificial especializado em jogos.

Embora o VLOGGER ainda não esteja disponível para experimentação, a demonstração sugere que ele permitirá que você crie um avatar e o controle usando sua própria voz – e o resultado é surpreendentemente realista.

Já é possível realizar coisas semelhantes até certo ponto, com ferramentas como o lip sync da Pika Labs, os serviços de tradução de vídeo do Hey Gen e o Synthesia, mas o VLOGGER parece oferecer uma opção mais simples e com menor consumo de dados.

“Propomos o VLOGGER, um método para geração de vídeo humano falante baseado em texto e áudio a partir de uma única imagem de entrada de uma pessoa, que se baseia no sucesso de modelos recentes de difusão generativa”.

Enric Corona, cientista pesquisador do Google

Mas, afinal, o que é o VLOGGER?

Por enquanto, o VLOGGER não passa de um projeto de pesquisa com alguns vídeos de demonstração divertidos. No entanto, se algum dia se tornar um produto, ele poderá representar uma nova forma de comunicação no ambiente de trabalho, seja utilizando Teams ou Slack.

O VLOGGER é um modelo de IA capaz de criar um avatar animado a partir de uma imagem estática, mantendo a aparência fotorrealista da pessoa em cada quadro do vídeo final.

Além disso, o modelo também utiliza um arquivo de áudio da pessoa falando e controla os movimentos do corpo e dos lábios para refletir a maneira natural como essa pessoa se moveria se estivesse realmente pronunciando as palavras.

Imagem relacionada a VLOGGER: AI do Google cria avatar realista a partir de uma foto e sua voz pode controlá-lo

Segundo os pesquisadores do Google, uma das principais uso da tecnologia está a tradução de vídeos, permitindo, por exemplo, ajustar os movimentos dos lábios e do rosto de um vídeo existente para combinar com um novo áudio traduzido.

Outras possibilidades incluem a criação de avatares animados para assistentes virtuais, chatbots ou personagens virtuais que parecem e se movem de forma realista em ambientes de jogos.

Embora já existam ferramentas semelhantes, como o Synthesia, onde os usuários podem criar seus próprios avatares virtuais para fazer apresentações, esse novo modelo parece tornar o processo muito mais fácil e acessível.

Uma das possíveis aplicações futuras também é a comunicação por vídeo. Uma versão aprimorada do modelo poderia permitir videochamadas a partir de um avatar animado gerado a partir de uma imagem estática.

Desta maneira, seria especialmente útil em ambientes de realidade virtual, como os headsets Meta Quest ou Apple Vision Pro, independentemente dos modelos de avatar oferecidos pelas próprias plataformas.

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.

Seguir:
Renê Fraga é fundador do Google Discovery (GD) e editor-chefe do Eurisko. Profissional de marketing digital, com pós-graduação pela ESPM, acompanha o Google desde os anos 2000 e escreve há mais de duas décadas sobre tecnologia, produtos digitais e o ecossistema da empresa. Criador do Google Discovery em 2006, tornou-se referência na cobertura do Google no Brasil e foi colunista do TechTudo (Globo.com), compartilhando análises e conhecimento com um grande público.
Nenhum comentário