Como a OpenAI testou o GPT-4 para evitar possíveis usos maliciosos do sistema

O GPT-4, o mais recente sistema de inteligência artificial desenvolvido pela OpenAI, foi testado por uma equipe de 50 especialistas e acadêmicos.

A “equipe vermelha” passou seis meses testando o sistema, investigando questões como toxicidade, preconceito e vieses linguísticos.

A equipe também testou possíveis atividades ilegais e riscos à segurança nacional. Os resultados foram usados pela OpenAI para mitigar e “reprogramar” o GPT-4 antes de seu lançamento público no mês passado.

O professor de engenharia química, Andrew White, estava entre os membros da equipe vermelha.

Ele usou o GPT-4 para sugerir um composto que poderia atuar como arma química e usou “plug-ins” que alimentaram o modelo com novas fontes de informação, como artigos científicos e um diretório de fabricantes de produtos químicos. O chatbot até encontrou um local para produzir o composto.

White alertou que a tecnologia poderia permitir que as pessoas fizessem química perigosa.

Roya Pakzad, pesquisadora de tecnologia e direitos humanos, usou prompts em inglês e farsi para testar o modelo em relação a respostas de gênero, preferências raciais e preconceitos religiosos.

Ela descobriu que o modelo exibia estereótipos evidentes sobre comunidades marginalizadas, mesmo em suas versões posteriores.

Boru Gollo, um advogado baseado em Nairóbi que foi o único testador africano, também observou o tom discriminatório do modelo. A OpenAI reconheceu que o GPT-4 ainda pode exibir vieses.

Os membros da equipe vermelha que avaliaram o modelo do ponto de vista da segurança nacional tinham opiniões diferentes sobre a segurança do novo modelo.

Lauren Kahn, pesquisadora do Conselho de Relações Exteriores, descobriu que a tecnologia poderia ser usada em um ataque cibernético a sistemas militares.

No entanto, Kahn e outros testadores de segurança descobriram que as respostas do modelo se tornaram consideravelmente mais seguras ao longo do tempo testado.

A OpenAI treinou o GPT-4 para recusar solicitações maliciosas de segurança cibernética antes de seu lançamento.

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.