Principais destaques:
- O Google revelou o Gemini Omni, nova geração de inteligência artificial multimodal focada na criação de vídeos a partir de diferentes tipos de mídia.
- A tecnologia consegue compreender texto, imagens, áudio e vídeo simultaneamente para gerar conteúdos mais naturais, coerentes e detalhados.
- O Gemini Omni Flash estreia integrado ao Gemini, YouTube Shorts e Flow, enquanto versões mais avançadas devem chegar futuramente para criadores e empresas.
O Google deu um dos passos mais importantes de sua estratégia em inteligência artificial durante o Google I/O ao apresentar oficialmente o Gemini Omni, uma nova família de modelos multimodais criada para transformar qualquer tipo de entrada em conteúdo audiovisual gerado por IA.
A proposta vai muito além dos atuais geradores de vídeo disponíveis no mercado e aproxima o Google da ideia de uma inteligência artificial capaz de entender o mundo de forma mais próxima da percepção humana.
Segundo Sundar Pichai, CEO do Google, o projeto representa a evolução natural do Gemini, modelo que já havia nascido com foco multimodal quando foi apresentado anos atrás. A diferença agora é que o Omni não apenas processa diferentes formatos de mídia separadamente, mas consegue raciocinar entre eles para criar respostas unificadas e muito mais inteligentes.
Na prática, isso significa que usuários poderão combinar imagens, vídeos, áudio e texto em um único comando e receber como resultado um vídeo totalmente novo, com narrativa coerente, consistência visual e entendimento contextual muito superior ao que existe atualmente em ferramentas tradicionais de IA.
Google quer transformar o Gemini em um modelo que “simula a realidade”
Durante a apresentação para jornalistas e desenvolvedores, o Google reforçou que o Gemini Omni faz parte de um movimento maior dentro da empresa: transformar modelos de linguagem em “world models”, sistemas capazes de compreender e simular aspectos do mundo real.
Pichai explicou que o treinamento multimodal do Gemini envolvendo texto, código, áudio, imagem e vídeo ajudou a IA a desenvolver uma compreensão mais profunda sobre física, comportamento humano, cultura, ciência e relações espaciais. Essa base permitiu ao Google criar um sistema que não apenas gera conteúdo, mas também entende contexto e intenção.
Esse conceito fica evidente nos exemplos demonstrados pela empresa. Em uma das apresentações, o Gemini Omni recebeu o pedido para criar uma explicação em estilo “claymation” sobre dobramento de proteínas. Em poucos segundos, a IA produziu um vídeo completo em estilo animação stop motion, com narração automática explicando conceitos científicos de maneira clara e visualmente consistente.
Segundo Koray Kavukcuoglu, diretor de tecnologia do Google DeepMind, o grande diferencial do Omni está justamente na capacidade de compreender relações complexas entre diferentes tipos de mídia ao mesmo tempo. Isso faz com que o resultado final pareça mais natural e menos “montado” artificialmente.
Gemini Omni também edita imagens usando linguagem natural
Além da geração de vídeos, o Omni também traz recursos avançados de edição de imagens. Usuários poderão alterar fotos usando apenas descrições em texto, sem precisar abrir programas profissionais ou aprender técnicas complexas de edição.
O funcionamento lembra ferramentas experimentais já vistas anteriormente no Google, como o Nano Banana, mas agora integrado a um sistema multimodal muito mais amplo. Isso permite, por exemplo, modificar cenários, remover pessoas, trocar elementos visuais e até alterar o estilo completo de uma imagem apenas conversando com a IA.
Apesar da facilidade, os executivos do DeepMind alertaram que os comandos precisam ser bastante específicos. Caso contrário, a IA pode alterar elementos que o usuário desejava manter, problema que já acontece em vários modelos generativos atuais.
Mesmo assim, o potencial criativo chama atenção. O Google acredita que a simplicidade da interface pode ajudar a popularizar a criação audiovisual com IA entre consumidores comuns, algo que ainda não havia acontecido em larga escala com modelos de vídeo mais técnicos e complexos.
Avatares digitais ganham espaço dentro do ecossistema Gemini
Uma das novidades que mais chamou atenção durante o anúncio foi a possibilidade de criar vídeos usando avatares digitais personalizados. Usuários poderão gerar versões virtuais de si mesmos para aparecer em vídeos criados pela IA.
A funcionalidade lembra recursos vistos anteriormente no Sora, da OpenAI, especialmente no antigo sistema Cameos. No entanto, o Google afirma ter desenvolvido um processo específico de segurança para evitar o uso indevido da tecnologia.
Antes de liberar a criação do avatar, o usuário precisará passar por um onboarding dedicado. Nesse processo, será necessário gravar vídeos pronunciando sequências numéricas específicas para comprovar autenticidade. Depois da validação, o avatar fica salvo para futuras produções.
A empresa também confirmou que todos os conteúdos criados com o Gemini Omni receberão automaticamente a marca d’água digital SynthID. Essa tecnologia desenvolvida pelo Google serve para identificar se imagens ou vídeos foram produzidos por inteligência artificial.
A preocupação com deepfakes e manipulação digital vem crescendo rapidamente no setor de IA generativa, especialmente após a explosão de ferramentas capazes de criar vídeos hiper-realistas. Por isso, o Google tenta posicionar o Omni como uma plataforma poderosa, mas também responsável em relação à autenticidade do conteúdo.
Gemini Omni Flash chega primeiro ao público geral
A primeira versão lançada comercialmente será o Gemini Omni Flash. O modelo começa a ser disponibilizado inicialmente dentro do aplicativo Gemini, do YouTube Shorts e da plataforma criativa Flow.
No lançamento, os vídeos terão limite de até 10 segundos. Segundo Nicole Brichtova, diretora de produto do DeepMind, essa limitação não representa uma restrição técnica definitiva, mas uma escolha estratégica para facilitar a adoção inicial da ferramenta.
O Google acredita que o consumo atual de vídeos curtos, impulsionado por TikTok, Shorts e Reels, faz desse formato o ponto ideal para introduzir a tecnologia ao público comum. Ainda assim, versões capazes de gerar vídeos mais longos já estão sendo desenvolvidas pela empresa.
Durante a demonstração, os exemplos mostraram usos bastante casuais e voltados ao entretenimento pessoal. Entre eles estavam vídeos fictícios de usuários recebendo prêmios, viajando ao espaço ou alterando registros de viagens e férias.
Gabe Barth-Maron, pesquisador do DeepMind, resumiu esses conteúdos como “memes personalizados”, destacando que o objetivo inicial do Flash é justamente aproximar consumidores comuns da criação audiovisual por IA.
Google também mira publicidade, cinema e criação profissional
Apesar do foco inicial em consumidores, o potencial profissional do Gemini Omni é enorme. O Google confirmou que o modelo será disponibilizado via API nas próximas semanas, permitindo integração em ferramentas corporativas e fluxos profissionais de criação.
Isso abre espaço para aplicações em publicidade, marketing, produção audiovisual, cinema, design e campanhas automatizadas. A capacidade do Omni de gerar textos corretamente dentro dos vídeos também foi destacada pelo Google como um diferencial importante para anúncios e branding.
Segundo Nicole Brichtova, o modelo apresenta desempenho especialmente forte em renderização de textos, algo que historicamente sempre foi um dos maiores problemas de modelos generativos de imagem e vídeo.
O mercado já observa movimentações semelhantes em startups como a Luma AI, que desenvolve sistemas capazes de criar campanhas inteiras de publicidade usando apenas uma imagem de produto e um pequeno briefing textual.
No entanto, o Google parece apostar em um diferencial importante: integrar toda essa experiência diretamente ao ecossistema Gemini, conectando IA multimodal, geração de mídia, edição e distribuição em plataformas gigantescas como o YouTube.
Omni Pro deve ampliar ainda mais as capacidades da IA
Além do Flash, o Google confirmou que trabalha em uma versão mais avançada chamada Gemini Omni Pro. Essa variante deve entregar qualidade superior em praticamente todas as tarefas multimodais.
Embora ainda não exista uma data oficial de lançamento, o Google afirmou que a versão Pro será apresentada quando representar um salto significativo em relação ao Flash.
A expectativa é que esse modelo mais robusto seja voltado principalmente para criadores profissionais, empresas, estúdios e aplicações comerciais mais complexas, incluindo produção cinematográfica e workflows completos de mídia gerada por IA.
Com o Gemini Omni, o Google deixa claro que a disputa pela próxima geração da inteligência artificial não será apenas sobre texto ou chatbots. O foco agora é construir modelos capazes de compreender e gerar qualquer tipo de conteúdo digital de maneira integrada, aproximando a IA de algo cada vez mais parecido com criatividade humana.
✨ Curtiu este conteúdo?
O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌
Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!