Seu site está treinando a inteligência artificial?

Renê Fraga
2 min de leitura

Muitas empresas de tecnologia usam a web para treinar seus modelos de inteligência artificial (IA), mas até que ponto essas empresas têm controle sobre o conteúdo que estão usando?

O Google, por exemplo, criou o Conjunto de Dados Colossal Comum para Treinamento de Linguagem (C4), que contém 750 GB de texto extraído de 45 milhões de páginas da web.

Embora o Google tenha dito que removeu conteúdo ofensivo, um artigo do Washington Post descobriu que o C4 contém palavras ofensivas e material protegido por direitos autorais.

O C4 começou como uma raspagem de dados realizada em abril de 2019 pelo CommonCrawl, uma organização sem fins lucrativos que fornece dados para modelos de IA.

O CommonCrawl disse que tenta priorizar os sites mais importantes e respeitáveis, mas não tenta evitar conteúdo licenciado ou protegido por direitos autorais.

O C4 é enorme, mas os especialistas dizem que os modelos de linguagem ainda usam conjuntos de dados ainda maiores.

O conjunto de dados de treinamento do GPT-3 da OpenAI, por exemplo, começou com até 40 vezes o volume de dados raspados da web pelo C4.

O conjunto de dados de treinamento do GPT-3 também inclui toda a Wikipédia em inglês, uma coleção de romances gratuitos de autores não publicados frequentemente usada por empresas de tecnologia e uma compilação de texto de links altamente classificados pelos usuários do Reddit.

O artigo do Washington Post aponta que muitas empresas não documentam o conteúdo de seus dados de treinamento, mesmo internamente, por medo de encontrar informações pessoais sobre indivíduos identificáveis, material protegido por direitos autorais e outros dados coletados sem consentimento.

À medida que as empresas enfrentam desafios para explicar como seus chatbots tomam decisões, a transparência sobre o conteúdo dos dados de treinamento pode ser uma área em que os executivos têm a oportunidade de serem mais abertos.

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.

Seguir:
Renê Fraga é fundador do Google Discovery (GD) e editor-chefe do Eurisko. Profissional de marketing digital, com pós-graduação pela ESPM, acompanha o Google desde os anos 2000 e escreve há mais de duas décadas sobre tecnologia, produtos digitais e o ecossistema da empresa. Criador do Google Discovery em 2006, tornou-se referência na cobertura do Google no Brasil e foi colunista do TechTudo (Globo.com), compartilhando análises e conhecimento com um grande público.
Nenhum comentário