Google revela VideoPoet: um modelo de linguagem multimodal para geração de vídeos

Renê Fraga
3 min de leitura

Pesquisadores do Google anunciaram a criação do VideoPoet, um poderoso modelo de linguagem multimodal capaz de gerar vídeos a partir de diversas fontes de entrada, como texto, imagens, vídeos e áudio.

O VideoPoet utiliza uma arquitetura de “transformador com decodificador”, sendo considerado um modelo zero-shot, ou seja, pode criar conteúdo para o qual não foi especificamente treinado.

O processo de treinamento do VideoPoet segue duas etapas semelhantes às de outros modelos de linguagem: pré-treinamento e adaptação específica para tarefas.

Os pesquisadores destacam que o modelo pré-treinado do VideoPoet serve como base para a realização de várias tarefas de geração de vídeo.

Uma característica diferencial do VideoPoet é sua capacidade de integrar diversas capacidades de geração de vídeo dentro de um único modelo de linguagem, dispensando a necessidade de componentes separadamente treinados para cada tarefa específica.

Google Videopoet Monalisa

O que o diferencia de outros modelos de vídeo que seguem abordagens de modelos de difusão, que adicionam ruído aos dados de treinamento e depois os reconstróem.

Com o VideoPoet, é possível realizar tarefas como geração de vídeo a partir de texto, imagem para vídeo, estilização de vídeo, preenchimento e ampliação de vídeo, bem como geração de áudio a partir de vídeos.

O VideoPoet é um modelo autorregressivo, o que significa que gera sua saída com base no que foi gerado previamente. Durante o treinamento, o VideoPoet é alimentado com dados de vídeo, texto, imagem e áudio, utilizando tokenizers para converter as informações entre as diferentes modalidades.

Os pesquisadores enfatizam o potencial promissor dos modelos de linguagem no campo da geração de vídeos e apontam para futuras direções de pesquisa, incluindo a ampliação do VideoPoet para suportar a geração “qualquer-para-qualquer”, como texto para áudio, áudio para vídeo e legendas de vídeo, entre outras possibilidades.

“Nossos resultados sugerem o potencial promissor dos LLMs na área de geração de vídeo”, disseram os pesquisadores. “Para direções futuras, nossa estrutura deve ser capaz de suportar a geração ‘qualquer para qualquer’, por exemplo, a extensão para texto para áudio, áudio para vídeo e legendas de vídeo deve ser possível, entre muitos outros.”

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.

Seguir:
Renê Fraga é fundador do Google Discovery (GD) e editor-chefe do Eurisko. Profissional de marketing digital, com pós-graduação pela ESPM, acompanha o Google desde os anos 2000 e escreve há mais de duas décadas sobre tecnologia, produtos digitais e o ecossistema da empresa. Criador do Google Discovery em 2006, tornou-se referência na cobertura do Google no Brasil e foi colunista do TechTudo (Globo.com), compartilhando análises e conhecimento com um grande público.
Nenhum comentário