O Grok 3, modelo de inteligência artificial lançado recentemente pela xAI, empresa ligada a Elon Musk, virou tema de discussão nas redes sociais após usuários descobrirem que ele estava evitando mencionar Donald Trump e o próprio Musk em respostas sobre disseminadores de desinformação.
O problema ocorria no modo “Think”, onde o Grok 3 simplesmente ignorava os nomes dos dois ao responder perguntas sobre o tema. A situação chamou a atenção e levantou questionamentos sobre possíveis interferências no funcionamento da IA.
De acordo com Igor Babuschkin, líder de engenharia da xAI, a mudança foi resultado de uma alteração temporária feita por um funcionário no sistema.
Ele explicou que, após receber feedbacks dos usuários, a empresa reverteu a atualização, já que a censura ia contra os valores da companhia.
Ainda assim, o caso gerou desconforto, especialmente porque Elon Musk sempre defendeu que o Grok 3 seria uma IA “maximamente dedicada à busca pela verdade”.
Antes da correção, o Grok 3 chegou a fazer declarações extremas sobre Trump, Musk e o senador JD Vance, acusando-os de causar danos aos Estados Unidos e até sugerindo a pena de morte para Trump e Musk.
Essas respostas levaram a uma intervenção direta dos engenheiros da xAI, que ajustaram o sistema para evitar esse tipo de conteúdo.
O caso também trouxe à tona a complexidade de combater a desinformação, especialmente quando figuras públicas como Trump e Musk estão envolvidas.
Ambos têm um histórico de compartilhar informações falsas, e as “Community Notes” do X (antigo Twitter) já marcaram diversos posts dos dois como enganosos.
Recentemente, Musk comentou que “consertaria” esse problema, mas não deu detalhes sobre como faria isso.
Grok 3 também pode ter inflado seus próprios benchmarks
Outro debate sobre o Grok 3 envolve a veracidade dos benchmarks do Grok 3. Um funcionário da OpenAI acusou a xAI de divulgar resultados enganosos sobre o desempenho de seu modelo mais recente.
Segundo a acusação, a xAI publicou um gráfico comparando o Grok 3 com o modelo o3-mini-high da OpenAI em um teste matemático chamado AIME 2025.
No entanto, a xAI teria omitido um dado crucial: o desempenho do modelo da OpenAI na métrica “cons@64”, que permite que a IA tente resolver cada problema 64 vezes antes de definir uma resposta final.
Esse método tende a melhorar significativamente os resultados de um modelo e, ao não incluí-lo, a xAI pode ter passado a impressão errada de que seu modelo superava o da concorrente.
Os números brutos também não favorecem tanto a xAI quanto a empresa sugere. O Grok 3 Reasoning Beta e o Grok 3 mini Reasoning, em sua primeira tentativa de resolver os problemas do AIME 2025, obtiveram resultados inferiores aos do o3-mini-high.
Além disso, o Grok 3 Reasoning Beta ficou ligeiramente atrás do modelo o1 da OpenAI configurado para “médio” desempenho. Apesar disso, a xAI continua promovendo o Grok 3 como “a IA mais inteligente do mundo”.
Babuschkin rebateu a crítica, alegando que a OpenAI também já publicou gráficos potencialmente enganosos no passado.
Toda essa discussão levanta um ponto importante: benchmarks de IA nem sempre contam toda a história.
✨ Curtiu este conteúdo?
O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌
Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!