O lado obscuro dos chatbots: a falta de transparência na fonte de dados

Renê Fraga
2 min de leitura

Um novo relatório do The Washington Post (via Inverse) expõe as fontes de dados usadas para treinar grandes modelos de linguagem (LLMs) do Google e do Facebook.

O estudo revela que chatbots poderiam facilmente utilizar material protegido por direitos autorais e fontes de notícias desacreditadas para criar suas respostas.

Além disso, esses sistemas têm tendência a fornecer respostas incorretas sem que o usuário saiba. A falta de transparência sobre as fontes de dados alimentando esses chatbots adiciona incerteza e questiona a validade das informações fornecidas.

O relatório do The Washington Post examinou o conjunto de dados C4 (Corpus Limpo e Rastreado Colossal) que alimenta o T5 do Google e o LLaMA do Facebook.

O estudo revelou a presença de fontes preocupantes, desde copyright symbols até fontes de notícias de extrema-direita.

Embora a informação sobre Stormwind possa ser útil para um chatbot, o acesso a informações enganosas e fontes de notícias questionáveis não é desejável.

Os chatbots não dependem apenas de um único LLM treinado em um conjunto de dados para funcionar, o que significa que há várias maneiras pelas quais eles podem produzir respostas imprecisas.

Além disso, o uso desses sistemas como fonte definitiva de informações pode prejudicar a confiança do usuário e a validade das informações fornecidas.

Embora as empresas que trabalham nessa área estejam fazendo esforços para evitar respostas incorretas e uso indevido, problemas persistem.

Mesmo com mecanismos de proteção, como a proibição de perguntas sobre assassinato em ChatGPT, questões como a capacidade de Bard de ser um “mentiroso patológico” e colocar usuários em situações perigosas ainda existem.

A confiança nas informações fornecidas por esses chatbots pode ser prejudicada, o que pode levar à necessidade de fontes adicionais para validar as informações.

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.

Seguir:
Renê Fraga é fundador do Google Discovery (GD) e editor-chefe do Eurisko. Profissional de marketing digital, com pós-graduação pela ESPM, acompanha o Google desde os anos 2000 e escreve há mais de duas décadas sobre tecnologia, produtos digitais e o ecossistema da empresa. Criador do Google Discovery em 2006, tornou-se referência na cobertura do Google no Brasil e foi colunista do TechTudo (Globo.com), compartilhando análises e conhecimento com um grande público.
Nenhum comentário