Google cria tecnologia que reduz uso de memória em inteligência artificial em até 6 vezes sem perder desempenho

Renê Fraga
10 min de leitura

Principais destaques

  • Google apresentou o TurboQuant, sistema que comprime a memória usada por modelos de IA em tempo real.
  • A tecnologia pode diminuir em até seis vezes o consumo de memória durante conversas e tarefas complexas.
  • Especialistas acreditam que a novidade pode tornar futuras IAs mais rápidas, acessíveis e eficientes energeticamente.

O Google anunciou uma das descobertas mais importantes do ano no setor de inteligência artificial. A empresa revelou uma nova tecnologia chamada TurboQuant, capaz de reduzir drasticamente a quantidade de memória utilizada por modelos de IA durante o funcionamento. Segundo os pesquisadores, o sistema consegue cortar em até seis vezes o uso de memória sem comprometer a qualidade das respostas geradas pelos modelos.

O avanço foi apresentado oficialmente durante a ICLR 2026, uma das maiores conferências globais sobre inteligência artificial, realizada no Rio de Janeiro. A notícia rapidamente chamou atenção da indústria de tecnologia porque resolve um dos maiores gargalos enfrentados atualmente pelos modelos generativos: o custo gigantesco de memória e processamento necessário para manter sistemas como chatbots funcionando em larga escala.

Hoje, ferramentas de IA como ChatGPT, Gemini e outros assistentes inteligentes precisam armazenar enormes quantidades de dados temporários enquanto produzem respostas. Isso exige servidores extremamente potentes, placas de memória avançadas e um consumo energético cada vez maior. Com o TurboQuant, o Google acredita que será possível manter modelos altamente sofisticados utilizando muito menos infraestrutura.

O problema da memória virou um dos maiores desafios da IA

Nos últimos anos, empresas de tecnologia focaram principalmente em aumentar o poder dos modelos de inteligência artificial. Quanto maior o modelo, mais informações ele consegue processar e mais natural se torna sua capacidade de responder perguntas, interpretar contexto e realizar tarefas complexas.

Mas essa evolução trouxe um problema enorme: memória.

Durante uma conversa, os sistemas de IA precisam armazenar temporariamente palavras, previsões, conexões matemáticas e interpretações contextuais em uma estrutura chamada KV Cache, conhecida como memória de trabalho da IA. É ela que permite ao chatbot “lembrar” do que foi dito momentos antes enquanto constrói uma resposta coerente.

Se um usuário pergunta sobre previsão do tempo, por exemplo, o sistema guarda temporariamente palavras como “amanhã”, “clima”, localização geográfica e hipóteses intermediárias até concluir a resposta final. Em diálogos simples, isso ocupa pouco espaço. Porém, em conversas longas ou tarefas complexas envolvendo milhares de tokens, o consumo de memória cresce rapidamente.

O crescimento do uso da IA em escala global agravou ainda mais esse cenário. Plataformas como ChatGPT recebem bilhões de solicitações diariamente, o que significa que gigantescos data centers precisam manter quantidades absurdas de memória ativa simultaneamente.

Isso não impacta apenas o custo financeiro das empresas. Também aumenta o consumo de energia, a necessidade de refrigeração e até a pressão sobre fabricantes de hardware.

Como o TurboQuant consegue reduzir tanto a memória

O diferencial do TurboQuant está em uma técnica chamada quantização. Em termos simples, ela transforma informações matemáticas em versões compactadas, usando menos bits para representar os mesmos dados.

O Google já utilizava quantização há anos em alguns sistemas de IA, mas existia uma limitação importante: normalmente o processo acontecia apenas uma vez, antes do modelo começar a funcionar.

O TurboQuant muda isso completamente porque faz a compressão em tempo real, enquanto a IA continua processando informações e gerando respostas. Esse detalhe é considerado extremamente complexo do ponto de vista técnico porque os dados precisam continuar precisos e atualizados mesmo após serem comprimidos.

Segundo os engenheiros do Google, o sistema consegue reduzir drasticamente o tamanho do KV Cache sem prejudicar a capacidade do modelo de interpretar contexto ou produzir respostas de alta qualidade.

Na prática, isso significa que futuras IAs poderão trabalhar com contextos maiores, manter conversas mais longas e operar em dispositivos menos potentes.

Especialistas acreditam que isso também pode abrir espaço para modelos avançados funcionando localmente em notebooks, celulares e até dispositivos menores, reduzindo dependência de servidores gigantescos na nuvem.

PolarQuant e QJL: as duas tecnologias por trás do avanço

O Google explicou que o TurboQuant é baseado em duas técnicas principais chamadas PolarQuant e Quantized Johnson-Lindenstrauss, também conhecido como QJL.

Embora os nomes pareçam extremamente técnicos, a ideia central é relativamente simples.

Os dados usados pelos modelos de IA são representados matematicamente como vetores, conjuntos numéricos que possuem direção e intensidade. Esses vetores normalmente são organizados em coordenadas tradicionais, como os eixos X, Y e Z.

O PolarQuant reorganiza esses vetores em um novo formato baseado em coordenadas polares. Isso permite alinhar melhor os dados matemáticos e armazená-los usando menos espaço sem perder informações relevantes.

Depois disso entra o QJL, responsável por pequenos ajustes matemáticos que corrigem possíveis distorções geradas durante a compressão.

Essa combinação permitiu ao Google alcançar resultados considerados impressionantes nos testes internos.

A empresa afirma que modelos populares como Llama 3.1-8B, Gemma e sistemas da Mistral AI conseguiram manter desempenho muito próximo do original mesmo utilizando muito menos memória operacional.

Mercado reagiu imediatamente ao anúncio do Google

O impacto da revelação foi tão forte que investidores reagiram quase instantaneamente.

Após o anúncio do TurboQuant, empresas ligadas ao setor de armazenamento e memória registraram quedas no mercado financeiro. Fabricantes como SanDisk, Western Digital e Seagate sofreram pressão porque a tecnologia pode reduzir parte da demanda futura por hardware de memória em larga escala.

O CEO da Cloudflare, Matthew Prince, chegou a descrever o avanço como “o DeepSeek do Google”, fazendo referência ao choque causado anteriormente pela startup chinesa DeepSeek ao lançar modelos extremamente eficientes com custos muito menores que os rivais ocidentais.

Para muitos especialistas, a corrida da IA entrou em uma nova fase. Em vez de apenas criar modelos maiores, as empresas agora buscam maneiras mais inteligentes e eficientes de operar esses sistemas.

A tecnologia ainda não resolve todos os problemas da IA

Apesar do entusiasmo, pesquisadores alertam que o TurboQuant ainda está em fase experimental e deve levar tempo até aparecer amplamente em produtos comerciais.

Além disso, existe uma limitação importante: a tecnologia atua apenas durante a inferência, que é o momento em que o modelo gera respostas aos usuários.

O treinamento das IAs continua exigindo quantidades gigantescas de memória e processamento. Em muitos casos, o treinamento pode consumir até quatro vezes mais recursos do que a própria execução do sistema.

Isso significa que o TurboQuant não elimina completamente os altos custos da inteligência artificial moderna.

Mesmo assim, analistas acreditam que o avanço pode transformar profundamente o mercado nos próximos anos. Modelos mais eficientes significam custos menores, possibilidade de atender mais usuários simultaneamente e expansão do acesso à IA em regiões e empresas que hoje não conseguem arcar com infraestrutura tão cara.

Além disso, reduzir o consumo energético se tornou prioridade estratégica para gigantes da tecnologia. O crescimento acelerado da IA vem aumentando significativamente a demanda global por eletricidade, levantando preocupações ambientais e econômicas.

O futuro pode incluir IAs muito mais acessíveis

O TurboQuant surge em um momento em que o setor de inteligência artificial enfrenta pressão crescente para encontrar soluções mais sustentáveis e eficientes.

Nos últimos meses, diversas empresas começaram a perceber que simplesmente aumentar o tamanho dos modelos talvez não seja suficiente para garantir evolução contínua. O custo operacional vem crescendo rapidamente, enquanto data centers enfrentam limites físicos de energia e refrigeração.

Nesse cenário, tecnologias de compressão inteligente podem se tornar tão importantes quanto os próprios modelos de IA.

Caso o TurboQuant realmente funcione em larga escala, o impacto pode ser enorme. Chatbots mais rápidos, assistentes pessoais rodando diretamente em celulares, sistemas empresariais mais baratos e até novas gerações de dispositivos inteligentes podem surgir a partir desse tipo de avanço.

O anúncio do Google mostra que a próxima grande disputa da inteligência artificial talvez não seja apenas quem cria o modelo mais poderoso, mas quem consegue fazê-lo funcionar da maneira mais eficiente possível.

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.

Seguir:
Renê Fraga é fundador do Google Discovery (GD) e editor-chefe do Eurisko. Profissional de marketing digital, com pós-graduação pela ESPM, acompanha o Google desde os anos 2000 e escreve há mais de duas décadas sobre tecnologia, produtos digitais e o ecossistema da empresa. Criador do Google Discovery em 2006, tornou-se referência na cobertura do Google no Brasil e foi colunista do TechTudo (Globo.com), compartilhando análises e conhecimento com um grande público.
Nenhum comentário