Google revela VideoPoet: um modelo de linguagem multimodal para geração de vídeos

Última atualização: 28/12/2023 17:05

3 min de leitura

Pesquisadores do Google anunciaram a criação do VideoPoet, um poderoso modelo de linguagem multimodal capaz de gerar vídeos a partir de diversas fontes de entrada, como texto, imagens, vídeos e áudio.

O VideoPoet utiliza uma arquitetura de “transformador com decodificador”, sendo considerado um modelo zero-shot, ou seja, pode criar conteúdo para o qual não foi especificamente treinado.

O processo de treinamento do VideoPoet segue duas etapas semelhantes às de outros modelos de linguagem: pré-treinamento e adaptação específica para tarefas.

Os pesquisadores destacam que o modelo pré-treinado do VideoPoet serve como base para a realização de várias tarefas de geração de vídeo.

Uma característica diferencial do VideoPoet é sua capacidade de integrar diversas capacidades de geração de vídeo dentro de um único modelo de linguagem, dispensando a necessidade de componentes separadamente treinados para cada tarefa específica.

O que o diferencia de outros modelos de vídeo que seguem abordagens de modelos de difusão, que adicionam ruído aos dados de treinamento e depois os reconstróem.

Com o VideoPoet, é possível realizar tarefas como geração de vídeo a partir de texto, imagem para vídeo, estilização de vídeo, preenchimento e ampliação de vídeo, bem como geração de áudio a partir de vídeos.

O VideoPoet é um modelo autorregressivo, o que significa que gera sua saída com base no que foi gerado previamente. Durante o treinamento, o VideoPoet é alimentado com dados de vídeo, texto, imagem e áudio, utilizando tokenizers para converter as informações entre as diferentes modalidades.

Os pesquisadores enfatizam o potencial promissor dos modelos de linguagem no campo da geração de vídeos e apontam para futuras direções de pesquisa, incluindo a ampliação do VideoPoet para suportar a geração “qualquer-para-qualquer”, como texto para áudio, áudio para vídeo e legendas de vídeo, entre outras possibilidades.

“Nossos resultados sugerem o potencial promissor dos LLMs na área de geração de vídeo”, disseram os pesquisadores. “Para direções futuras, nossa estrutura deve ser capaz de suportar a geração ‘qualquer para qualquer’, por exemplo, a extensão para texto para áudio, áudio para vídeo e legendas de vídeo deve ser possível, entre muitos outros.”

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.

Google revela VideoPoet: um modelo de linguagem multimodal para geração de vídeos

✨ Curtiu este conteúdo?

Deixe um comentário Cancelar resposta

Novos Posts

Google aposta em IA para transformar criação de vídeos com avatares controlados por texto no Vids

Para CEO, criadores sabem que o YouTube ainda é sua melhor casa

Google testa reescrever títulos com IA e levanta alerta entre sites de notícias

Teste do YouTube substitui títulos de vídeo por resumos de IA

Swift agora funciona no Android: linguagem da Apple dá passo importante rumo ao multiplataforma

FragaNet Media

✨ Curtiu este conteúdo?

Você também pode gostar

Deixe um comentário Cancelar resposta

Novos Posts

Google aposta em IA para transformar criação de vídeos com avatares controlados por texto no Vids

Para CEO, criadores sabem que o YouTube ainda é sua melhor casa

Google testa reescrever títulos com IA e levanta alerta entre sites de notícias

Teste do YouTube substitui títulos de vídeo por resumos de IA

Swift agora funciona no Android: linguagem da Apple dá passo importante rumo ao multiplataforma