Descoberta revela falhas na segurança do ChatGPT 4, permitindo orientações perigosas

Renê Fraga
2 min de leitura

Um estudo recente revelou preocupações alarmantes sobre a segurança do ChatGPT 4, um modelo de inteligência artificial que utiliza a linguagem natural para interagir com os usuários.

Pesquisadores descobriram uma forma de “jailbreak” no ChatGPT 4, contornando as salvaguardas que impedem o fornecimento de conselhos perigosos.

Essa abordagem, chamada de “Jailbreak de Baixo Recurso de Idiomas”, alcançou uma taxa de sucesso total impressionante de 79%.

O termo “jailbreak” foi originalmente criado para descrever o ato de contornar as restrições de software dos iPhones, permitindo modificações não autorizadas.

No contexto do ChatGPT, isso significa contornar as “guardrails” de segurança que deveriam impedir o modelo de fornecer informações prejudiciais.

Os pesquisadores conseguiram fazer com que o ChatGPT 4 desse instruções sobre como roubar de uma loja, incluindo a sugestão de escolher horários movimentados para cometer o crime.

Os pesquisadores destacaram que as medidas de segurança atualmente implementadas para a IA generativa são insuficientes, uma vez que os desenvolvedores do ChatGPT concentram seus esforços em enfrentar ataques na língua inglesa.

Essa abordagem inadvertidamente criou brechas em “idiomas de baixo recurso”, que são idiomas nos quais o modelo não recebeu treinamento de segurança adequado.

Para resolver essa questão, os pesquisadores sugerem a criação de conjuntos de dados específicos para idiomas de baixo recurso, a fim de fortalecer as proteções.

Os pesquisadores alertaram a OpenAI, empresa responsável pelo ChatGPT, sobre a vulnerabilidade descoberta antes de tornarem a informação pública.

Eles esperam que essa pesquisa estimule medidas de segurança mais robustas, levando em consideração uma variedade maior de idiomas.

A descoberta levanta questões sobre a confiabilidade e a responsabilidade dos modelos de IA e destaca a necessidade de uma abordagem mais abrangente para garantir a segurança em diferentes idiomas.

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.

Seguir:
Renê Fraga é fundador do Google Discovery (GD) e editor-chefe do Eurisko. Profissional de marketing digital, com pós-graduação pela ESPM, acompanha o Google desde os anos 2000 e escreve há mais de duas décadas sobre tecnologia, produtos digitais e o ecossistema da empresa. Criador do Google Discovery em 2006, tornou-se referência na cobertura do Google no Brasil e foi colunista do TechTudo (Globo.com), compartilhando análises e conhecimento com um grande público.
1 comentário