Google apresenta Visão Agêntica no Gemini 3 Flash e muda a forma como a IA analisa imagens

Tópicos

Uma nova abordagem para entender imagens
Pensar, agir e observar em ciclos
Casos práticos e onde usar

Principais destaques:

A Visão Agêntica permite que o Gemini analise imagens em várias etapas, em vez de apenas um olhar único.

O modelo passa a executar código para ampliar, recortar e anotar imagens, reduzindo suposições.

O Google afirma ganhos consistentes de até 10% na qualidade em testes de visão computacional.

O Google anunciou a Visão Agêntica para o Gemini 3 Flash, um novo recurso que leva a análise de imagens por inteligência artificial a um nível mais investigativo e preciso.

A novidade transforma a leitura visual, antes estática, em um processo ativo, no qual o modelo pode reexaminar detalhes, manipular imagens e validar informações antes de responder.

Imagem relacionada a Google apresenta Visão Agêntica no Gemini 3 Flash e muda a forma como a IA analisa imagens

Uma nova abordagem para entender imagens

Tradicionalmente, modelos de IA analisam uma imagem de uma só vez. Se um detalhe pequeno passa despercebido, como um número em um chip ou uma placa distante, o sistema tende a “chutar” a resposta.

Com a Visão Agêntica, o Gemini 3 Flash pode revisitar a imagem quantas vezes forem necessárias, ajustando o foco e explorando áreas específicas para encontrar informações mais precisas.

Esse avanço foi apresentado no blog oficial de IA do Google e representa uma mudança importante na forma como sistemas de visão computacional funcionam, especialmente para tarefas que exigem alto nível de precisão.

Pensar, agir e observar em ciclos

No centro da Visão Agêntica está um ciclo de três etapas. Primeiro, o modelo pensa, analisando a pergunta do usuário e a imagem inicial para criar um plano.

Em seguida, ele age, gerando e executando código Python capaz de manipular a imagem, seja cortando, girando ou marcando pontos relevantes. Por fim, ele observa o resultado dessas alterações, incorporando a nova imagem ao contexto antes de formular a resposta final.

Segundo o Google, apenas a ativação da execução de código já traz melhorias de 5% a 10% em quase todos os benchmarks de visão, tornando as respostas mais confiáveis.

Casos práticos e onde usar

Entre os exemplos citados está o uso em validação de plantas prediais, onde a IA consegue inspecionar áreas específicas de projetos arquitetônicos e checar conformidade com códigos de construção.

A tecnologia também permite anotações visuais, como desenhar caixas e rótulos sobre objetos, e ajuda em tarefas de matemática visual ao transferir cálculos complexos para um ambiente Python determinístico.

A Visão Agêntica já está disponível via API do Gemini no Google AI Studio e no Vertex AI. O Google afirma que futuras atualizações devem tornar ainda mais automáticas ações como rotação de imagens e cálculos visuais, além de integrar ferramentas como busca na web e busca reversa de imagens.

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.