Bots de IA estão sobrecarregando sites de open source — e o Brasil foi bloqueado por causa deles

Nos últimos meses, desenvolvedores e projetos de código aberto têm enfrentado um problema crescente: os crawlers (bots) de inteligência artificial estão sobrecarregando suas infraestruturas, causando instabilidade e aumentando custos.

O Brasil se tornou um dos focos desse problema, com muitos sites e repositórios sendo atacados por crawlers que consomem dados sem dó, prejudicando o funcionamento de sistemas essenciais na internet.

Bots de IA, como os usados por grandes empresas de tecnologia, como Amazon e Alibaba, têm feito varreduras em sites de código aberto em busca de dados para alimentar seus sistemas de aprendizado de máquina.

Essas varreduras, muitas vezes agressivas, podem consumir uma enorme quantidade de banda de internet e causar quedas nos sites, o que afeta diretamente a experiência de quem precisa acessar esses recursos.

Um exemplo disso é o projeto Fedora Pagure, que foi forçado a bloquear todo o tráfego do Brasil devido à quantidade de bots. O GNOME GitLab também teve que adotar um sistema de segurança para limitar o impacto, mas com resultados mistos.

Para tentar enfrentar essa onda de bots, desenvolvedores estão criando soluções como o sistema “Anubis”, que obriga os navegadores a resolverem enigmas matemáticos antes de acessar um site.

Embora eficaz, essa solução pode causar atrasos para os usuários legítimos, especialmente em momentos de pico de acessos.

A situação é tão grave que, no caso de alguns projetos, até 97% do tráfego de seus sites está sendo gerado por crawlers, o que aumenta os custos com a internet e dificulta a manutenção desses serviços. No Brasil, a situação está ficando cada vez mais crítica.

Como muitos projetos de código aberto dependem de colaboração pública e têm recursos limitados, o impacto de tais ataques tem sido ainda mais devastador.

A pressão sobre esses sistemas está fazendo com que os desenvolvedores tomem medidas drásticas, como bloquear completamente os acessos de alguns países.

No caso do Brasil, a crescente presença de crawlers de IA está colocando em risco o funcionamento de vários projetos que são essenciais para a comunidade de tecnologia global.

Este cenário levanta questões sobre o comportamento das grandes empresas de IA, que muitas vezes coletam dados de maneira indiscriminada, sem considerar o impacto que suas ações causam em pequenas comunidades de código aberto.

Sem uma abordagem mais ética e colaborativa, o futuro da infraestrutura digital da internet corre o risco de ser comprometido.

A grande questão agora é: até onde as empresas de IA vão continuar a explorar os dados sem uma regulamentação clara, e como a comunidade pode se proteger contra essas práticas?

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.