Um novo relatório do The Washington Post (via Inverse) expõe as fontes de dados usadas para treinar grandes modelos de linguagem (LLMs) do Google e do Facebook.
O estudo revela que chatbots poderiam facilmente utilizar material protegido por direitos autorais e fontes de notícias desacreditadas para criar suas respostas.
Além disso, esses sistemas têm tendência a fornecer respostas incorretas sem que o usuário saiba. A falta de transparência sobre as fontes de dados alimentando esses chatbots adiciona incerteza e questiona a validade das informações fornecidas.
O relatório do The Washington Post examinou o conjunto de dados C4 (Corpus Limpo e Rastreado Colossal) que alimenta o T5 do Google e o LLaMA do Facebook.
O estudo revelou a presença de fontes preocupantes, desde copyright symbols até fontes de notícias de extrema-direita.
Embora a informação sobre Stormwind possa ser útil para um chatbot, o acesso a informações enganosas e fontes de notícias questionáveis não é desejável.
Os chatbots não dependem apenas de um único LLM treinado em um conjunto de dados para funcionar, o que significa que há várias maneiras pelas quais eles podem produzir respostas imprecisas.
Além disso, o uso desses sistemas como fonte definitiva de informações pode prejudicar a confiança do usuário e a validade das informações fornecidas.
Embora as empresas que trabalham nessa área estejam fazendo esforços para evitar respostas incorretas e uso indevido, problemas persistem.
Mesmo com mecanismos de proteção, como a proibição de perguntas sobre assassinato em ChatGPT, questões como a capacidade de Bard de ser um “mentiroso patológico” e colocar usuários em situações perigosas ainda existem.
A confiança nas informações fornecidas por esses chatbots pode ser prejudicada, o que pode levar à necessidade de fontes adicionais para validar as informações.
✨ Curtiu este conteúdo?
O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌
Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!