Pesquisadores do Google anunciaram a criação do VideoPoet, um poderoso modelo de linguagem multimodal capaz de gerar vídeos a partir de diversas fontes de entrada, como texto, imagens, vídeos e áudio.
O VideoPoet utiliza uma arquitetura de “transformador com decodificador”, sendo considerado um modelo zero-shot, ou seja, pode criar conteúdo para o qual não foi especificamente treinado.
O processo de treinamento do VideoPoet segue duas etapas semelhantes às de outros modelos de linguagem: pré-treinamento e adaptação específica para tarefas.
Os pesquisadores destacam que o modelo pré-treinado do VideoPoet serve como base para a realização de várias tarefas de geração de vídeo.
Uma característica diferencial do VideoPoet é sua capacidade de integrar diversas capacidades de geração de vídeo dentro de um único modelo de linguagem, dispensando a necessidade de componentes separadamente treinados para cada tarefa específica.

O que o diferencia de outros modelos de vídeo que seguem abordagens de modelos de difusão, que adicionam ruído aos dados de treinamento e depois os reconstróem.
Com o VideoPoet, é possível realizar tarefas como geração de vídeo a partir de texto, imagem para vídeo, estilização de vídeo, preenchimento e ampliação de vídeo, bem como geração de áudio a partir de vídeos.
O VideoPoet é um modelo autorregressivo, o que significa que gera sua saída com base no que foi gerado previamente. Durante o treinamento, o VideoPoet é alimentado com dados de vídeo, texto, imagem e áudio, utilizando tokenizers para converter as informações entre as diferentes modalidades.
Os pesquisadores enfatizam o potencial promissor dos modelos de linguagem no campo da geração de vídeos e apontam para futuras direções de pesquisa, incluindo a ampliação do VideoPoet para suportar a geração “qualquer-para-qualquer”, como texto para áudio, áudio para vídeo e legendas de vídeo, entre outras possibilidades.
“Nossos resultados sugerem o potencial promissor dos LLMs na área de geração de vídeo”, disseram os pesquisadores. “Para direções futuras, nossa estrutura deve ser capaz de suportar a geração ‘qualquer para qualquer’, por exemplo, a extensão para texto para áudio, áudio para vídeo e legendas de vídeo deve ser possível, entre muitos outros.”
✨ Curtiu este conteúdo?
O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌
Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!