Conjunto de dados de treinamento do Google Bard contém conteúdo pirata

Renê Fraga
3 min de leitura

O Google Bard, uma nova tecnologia de linguagem natural da Google, está enfrentando críticas após a descoberta de que seu conjunto de dados de treinamento contém conteúdo pirata.

O conjunto de dados Colossal Clean Crawled Corpus (C4) é usado para treinar o LaMDA LLM da Google, uma versão na qual o Bard é baseado.

De acordo com a revisão do C4 pelo The Washington Post, o conjunto de dados contém vários sites identificados pelo governo dos EUA como mercados de pirataria e falsificação.

Embora não esteja claro se a versão específica do C4 usada para treinar o Bard contém esse conteúdo, a descoberta levanta preocupações sobre a ética do uso de conteúdo pirata em treinamento de IA.

Além disso, a descoberta de conteúdo pirata no conjunto de dados de treinamento do Bard destaca a importância de abordar questões de viés nos conjuntos de dados usados para treinar modelos de IA.

A falta de transparência em torno da origem e do conteúdo de conjuntos de dados de treinamento pode resultar em modelos de IA que perpetuam o preconceito e a exclusão.

Embora a Google não tenha comentado especificamente sobre as descobertas da revisão do C4, a empresa tem enfatizado a importância da ética em IA e comprometido-se a abordar questões de viés e justiça em seus produtos.

É fundamental que empresas de tecnologia como o Google sejam transparentes sobre a origem e o conteúdo de seus conjuntos de dados de treinamento para garantir que seus modelos de IA sejam justos e representativos.

E o ChatGPT?

A OpenAI é conhecida por ser altamente sigilosa sobre o uso de conjuntos de dados em seus modelos de linguagem natural, incluindo o GPT-4.

Embora a empresa não tenha comentado publicamente sobre o uso de conteúdo pirata em seu conjunto de dados de treinamento, uma revisão publicada em 2021 levantou preocupações sobre o uso de livros protegidos por direitos autorais no conjunto de dados BookCorpus.

Essas preocupações destacam a importância da transparência em torno do uso de conjuntos de dados de treinamento e da necessidade de garantir que os modelos de IA sejam justos e éticos.

Via Search Engine Journal

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.

Seguir:
Renê Fraga é fundador do Google Discovery (GD) e editor-chefe do Eurisko. Profissional de marketing digital, com pós-graduação pela ESPM, acompanha o Google desde os anos 2000 e escreve há mais de duas décadas sobre tecnologia, produtos digitais e o ecossistema da empresa. Criador do Google Discovery em 2006, tornou-se referência na cobertura do Google no Brasil e foi colunista do TechTudo (Globo.com), compartilhando análises e conhecimento com um grande público.
Nenhum comentário