A OpenAI apresentou o GPTBot, um web crawler projetado para aprimorar o desempenho de modelos de IA, como o GPT-4.
Ao navegar pela internet, o GPTBot pode potencialmente melhorar a precisão e a segurança desses modelos.
O funcionamento do GPTBot é detalhado em um post no blog da OpenAI, com foco em sua função de filtragem de dados.
Essa função é projetada para excluir conteúdos protegidos por paywalls, fontes que coletam informações pessoais identificáveis (PII) e textos que violam políticas.
Levando em consideração problemas relacionados à coleta de dados, violação de direitos autorais e violações de privacidade no passado, a OpenAI implementou medidas que permitem que os sites limitem o acesso do GPTBot a seu conteúdo, seja por bloqueio de endereço IP ou ajustes no arquivo Robots.txt.
Recursos adicionais de exclusão, como a desativação do histórico de conversas, oferecem aos usuários mais controle sobre seus dados pessoais acessados pela IA.
No entanto, atualmente não há opção para excluir conteúdo do conjunto de dados usado para treinar modelos como o ChatGPT 3.5 e 4.
Os proprietários de sites que desejam impedir que o GPTBot acesse seu conteúdo podem modificar o arquivo Robots.txt para gerenciar as permissões do web crawler.
Isso permite que eles determinem quais seções de seu site o GPTBot pode ou não pode acessar.
✨ Curtiu este conteúdo?
O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌
Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!