Muitas empresas de tecnologia usam a web para treinar seus modelos de inteligência artificial (IA), mas até que ponto essas empresas têm controle sobre o conteúdo que estão usando?
O Google, por exemplo, criou o Conjunto de Dados Colossal Comum para Treinamento de Linguagem (C4), que contém 750 GB de texto extraído de 45 milhões de páginas da web.
Embora o Google tenha dito que removeu conteúdo ofensivo, um artigo do Washington Post descobriu que o C4 contém palavras ofensivas e material protegido por direitos autorais.
O C4 começou como uma raspagem de dados realizada em abril de 2019 pelo CommonCrawl, uma organização sem fins lucrativos que fornece dados para modelos de IA.
O CommonCrawl disse que tenta priorizar os sites mais importantes e respeitáveis, mas não tenta evitar conteúdo licenciado ou protegido por direitos autorais.
O C4 é enorme, mas os especialistas dizem que os modelos de linguagem ainda usam conjuntos de dados ainda maiores.
O conjunto de dados de treinamento do GPT-3 da OpenAI, por exemplo, começou com até 40 vezes o volume de dados raspados da web pelo C4.
O conjunto de dados de treinamento do GPT-3 também inclui toda a Wikipédia em inglês, uma coleção de romances gratuitos de autores não publicados frequentemente usada por empresas de tecnologia e uma compilação de texto de links altamente classificados pelos usuários do Reddit.
O artigo do Washington Post aponta que muitas empresas não documentam o conteúdo de seus dados de treinamento, mesmo internamente, por medo de encontrar informações pessoais sobre indivíduos identificáveis, material protegido por direitos autorais e outros dados coletados sem consentimento.
À medida que as empresas enfrentam desafios para explicar como seus chatbots tomam decisões, a transparência sobre o conteúdo dos dados de treinamento pode ser uma área em que os executivos têm a oportunidade de serem mais abertos.
✨ Curtiu este conteúdo?
O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌
Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!