Filtros de segurança de IA da Meta e Google podem ser removidos em minutos, aponta investigação do Financial Times

Renê Fraga
10 min de leitura

Principais destaques

  • Ferramentas públicas conseguem desativar filtros de segurança de modelos de IA da Meta e Google em poucos minutos.
  • Pesquisadores obtiveram respostas relacionadas a malware, armas biológicas e conteúdos ilegais após modificações simples nos sistemas.
  • Especialistas alertam que modelos de pesos abertos ampliam riscos de abuso e aumentam pressão por regulamentação global.

A corrida pela inteligência artificial generativa ganhou um novo capítulo preocupante. Uma investigação publicada pelo Financial Times revelou que os sistemas de proteção implementados em modelos de IA da Meta e do Google podem ser removidos rapidamente com ferramentas disponíveis publicamente na internet.

O relatório mostra que, após pequenas modificações, os modelos passaram a responder solicitações que normalmente seriam bloqueadas por questões de segurança, incluindo instruções ligadas à criação de malware, armas biológicas e exploração infantil.

O caso reacende uma discussão que já vinha crescendo nos bastidores do setor de tecnologia: até que ponto os filtros de segurança das inteligências artificiais realmente funcionam quando os modelos saem do ambiente controlado das grandes empresas?

Embora companhias como Meta, Google, OpenAI e Anthropic defendam que investem bilhões de dólares em alinhamento e proteção, pesquisadores independentes afirmam que muitas dessas barreiras são frágeis e relativamente fáceis de contornar.

A investigação foi conduzida em parceria com o grupo de segurança em IA Alice, que testou diferentes ferramentas capazes de modificar o comportamento dos modelos. Segundo os resultados apresentados, bastaram alguns minutos para remover restrições consideradas fundamentais para impedir usos perigosos da tecnologia.

Ferramentas públicas tornam o desbloqueio acessível

Um dos pontos mais alarmantes da investigação é o fato de que os métodos utilizados não exigem infraestrutura avançada nem equipes altamente especializadas. Muitas das ferramentas usadas para desbloquear os modelos estão disponíveis gratuitamente em fóruns, plataformas de código aberto e comunidades voltadas à pesquisa em IA.

Esses kits exploram técnicas conhecidas como ajuste fino leve (light fine-tuning), conjuntos de instruções adversariais e transformação automatizada de prompts. Em vez de reconstruir completamente um modelo de IA, o sistema simplesmente recebe ajustes que alteram a forma como ele interpreta pedidos e aplica recusas de segurança.

Na prática, isso significa que um modelo originalmente treinado para bloquear conteúdos perigosos pode ser rapidamente modificado para ignorar suas próprias regras. O Financial Times relata que pesquisadores conseguiram fazer sistemas responderem a solicitações altamente sensíveis após alterações relativamente simples.

Especialistas ouvidos pela publicação afirmam que o problema se torna ainda mais grave porque já existem milhares de versões modificadas desses modelos circulando online. Algumas delas são distribuídas como alternativas “sem censura”, atraindo usuários interessados em gerar conteúdos proibidos ou evitar limitações impostas pelas empresas originais.

Esse cenário cria um desafio enorme para a indústria. Diferentemente de softwares tradicionais, modelos de IA podem ser replicados indefinidamente. Depois que os pesos do sistema são disponibilizados ao público, controlar modificações posteriores se torna praticamente impossível.

O dilema dos modelos de pesos abertos

A investigação também coloca sob pressão a estratégia de modelos de pesos abertos adotada principalmente pela Meta com a família Llama e pelo Google com a linha Gemma. Esses sistemas foram desenvolvidos com a proposta de democratizar o acesso à inteligência artificial, permitindo que pesquisadores, startups e desenvolvedores criem aplicações personalizadas sem depender totalmente de plataformas fechadas.

A abertura acelerou a inovação no setor. Pequenas empresas passaram a construir produtos avançados sem precisar treinar modelos gigantescos do zero. Universidades também ganharam mais liberdade para estudar funcionamento, desempenho e alinhamento das IAs.

Por outro lado, o mesmo acesso que favorece pesquisa e desenvolvimento também permite que terceiros removam filtros de segurança ou alterem o comportamento original dos sistemas.

Analistas de cibersegurança afirmam que muitos mecanismos de proteção atuais funcionam apenas como camadas superficiais adicionadas após o treinamento principal do modelo. Isso significa que, quando alguém consegue acessar os pesos internos da IA, modificar ou eliminar essas barreiras pode ser muito mais simples do que o público imagina.

A discussão já vinha dividindo especialistas há meses. Defensores do código aberto argumentam que transparência ajuda a identificar vulnerabilidades mais rapidamente e evita concentração de poder em poucas empresas. Já críticos afirmam que liberar modelos avançados sem mecanismos robustos de controle aumenta o risco de abuso por criminosos, grupos extremistas e agentes mal-intencionados.

O debate ficou ainda mais intenso depois que versões desbloqueadas de modelos populares começaram a aparecer em comunidades online, oferecendo respostas sem qualquer limitação ética ou legal.

Pesquisas acadêmicas reforçam preocupações

As conclusões do Financial Times não surgem isoladamente. Nos últimos meses, diversos estudos acadêmicos vêm demonstrando que os atuais métodos de alinhamento de IA possuem fragilidades profundas.

Uma pesquisa publicada em fevereiro na revista Nature Communications mostrou que grandes modelos de raciocínio podem atuar como agentes autônomos de jailbreak. Segundo o estudo, os sistemas alcançaram taxa de sucesso de 97% ao encontrar formas de contornar filtros de segurança em diferentes modelos sem ajuda humana.

Em outro trabalho apresentado na ICLR 2026, pesquisadores demonstraram uma técnica chamada Head-Masked Nullspace Steering. O método conseguiu atingir até 99% de sucesso em jailbreaks ao desativar mecanismos específicos de atenção responsáveis pelas recusas de segurança dos modelos.

Embora os detalhes técnicos sejam complexos, a conclusão preocupa especialistas: muitas proteções implementadas atualmente não estariam profundamente integradas ao funcionamento central da IA. Em vez disso, funcionariam como camadas adicionais relativamente frágeis.

Isso levanta dúvidas sobre a sustentabilidade da atual estratégia da indústria. Empresas vêm promovendo seus sistemas como cada vez mais seguros, mas estudos recentes indicam que bastam pequenas intervenções para remover boa parte dessas limitações.

Pesquisadores alertam que o problema não se restringe apenas à geração de texto perigoso. Modelos desbloqueados poderiam auxiliar em golpes sofisticados, campanhas de desinformação, ataques cibernéticos automatizados e desenvolvimento de códigos maliciosos em larga escala.

Empresas enfrentam pressão crescente

As revelações também aumentam a pressão sobre gigantes da tecnologia, que vêm tentando equilibrar velocidade de inovação com responsabilidade pública.

A Meta tem defendido fortemente o conceito de IA aberta como motor de desenvolvimento econômico e científico. O CEO Mark Zuckerberg já afirmou diversas vezes que modelos acessíveis permitem criar um ecossistema mais competitivo e menos concentrado.

O Google também ampliou investimentos em IA aberta nos últimos anos, especialmente após a ascensão da concorrência no mercado generativo. Ao mesmo tempo, as empresas reforçam que mantêm políticas rígidas para impedir usos perigosos da tecnologia.

O problema é que, uma vez disponibilizados publicamente, os modelos podem ser modificados fora do alcance direto das companhias.

Recentemente, o The New York Times também publicou uma reportagem mostrando que pesquisadores da empresa de cibersegurança LayerX conseguiram contornar proteções do Claude, modelo da Anthropic, com esforço relativamente baixo.

Isso sugere que o problema não está restrito a uma única empresa, mas pode representar uma limitação estrutural das atuais técnicas de segurança usadas em inteligência artificial.

Regulamentação deve acelerar nos próximos meses

As descobertas tendem a intensificar o movimento regulatório em diferentes partes do mundo. Autoridades dos Estados Unidos, União Europeia e Reino Unido vêm indicando que promessas voluntárias das empresas não serão suficientes para lidar com riscos associados à IA avançada.

Nos EUA, órgãos ligados ao NIST e diretrizes federais já estudam formas de criar padrões obrigatórios de auditoria e segurança. Na Europa, a Lei de IA aprovada recentemente prevê multas elevadas para falhas sistêmicas e ausência de controles adequados.

Governos também discutem exigências de transparência, rastreabilidade e certificação independente para modelos considerados de alto risco.

Além do impacto regulatório, existe preocupação crescente no mercado corporativo. Grandes empresas interessadas em integrar IA em operações críticas podem exigir garantias técnicas muito mais rigorosas antes de adotar esses sistemas em larga escala.

Especialistas acreditam que auditorias independentes e mecanismos permanentes de monitoramento devem se tornar cada vez mais comuns no setor.

Ao mesmo tempo, o debate sobre IA aberta continua longe de um consenso. Enquanto alguns defendem restrições mais severas para evitar abusos, outros alertam que excesso de controle pode sufocar inovação e concentrar ainda mais poder nas mãos de poucas gigantes da tecnologia.

O episódio revelado pelo Financial Times mostra que a indústria de IA entrou em uma nova fase, na qual segurança deixou de ser apenas uma promessa de marketing e passou a se tornar uma questão central para governos, empresas e sociedade.

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.

Seguir:
Renê Fraga é fundador do Google Discovery (GD) e editor-chefe do Eurisko. Profissional de marketing digital, com pós-graduação pela ESPM, acompanha o Google desde os anos 2000 e escreve há mais de duas décadas sobre tecnologia, produtos digitais e o ecossistema da empresa. Criador do Google Discovery em 2006, tornou-se referência na cobertura do Google no Brasil e foi colunista do TechTudo (Globo.com), compartilhando análises e conhecimento com um grande público.
Nenhum comentário