Os segredos do Google: O depoimento que revelou como funciona a máquina de Busca

No mês de outubro, Pandu Nayak prestou depoimento no julgamento antitruste U.S. vs. Google. Em um artigo publicado pelo New York Times, a cobertura parecia ser mais uma peça de relações públicas do que uma análise profunda.

No entanto, em 16 de novembro, AJ Kohn lançou um artigo intitulado “O que Pandu Nayak me ensinou sobre SEO“, revelando um link para o depoimento de Nayak em PDF, uma leitura fascinante para profissionais de SEO.

Neste depoimento, Nayak desvendou detalhes cruciais sobre o funcionamento interno do Google Search e seu sistema de classificação. Ele abordou temas como indexação, algoritmos, sistemas de classificação, cliques, avaliadores humanos e muito mais.

Embora algumas informações possam ser familiares, Nayak forneceu insights valiosos sobre a criação de um índice abrangente, destacando a importância da qualidade sobre a quantidade.

O tamanho do índice do Google em 2020 era aproximadamente 400 bilhões de documentos, e Nayak enfatizou que “maior nem sempre é melhor”. Ele discutiu como a remoção de informações irrelevantes pode aprimorar a qualidade do índice.

Nayak também compartilhou insights sobre o papel fundamental do índice na recuperação de informações e como o algoritmo de recuperação usa sinais para classificar os documentos relevantes.

No que diz respeito ao ranking do Google, Nayak revelou que, embora a empresa tenha afirmado usar mais de 200 sinais no passado, o número agora está em “talvez mais de cem”.

Ele destacou a importância de sinais como documentação, relevância, qualidade da página, confiabilidade, localização e Navboost.

“Quero dizer, no geral, há muitos sinais. Você sabe, talvez mais de cem sinais. Mas para recuperar documentos, o documento em si é talvez o mais importante, aquelas listas de lançamentos que temos e das quais usamos para recuperar documentos. Essa é talvez a coisa mais importante: reduzir para dezenas de milhares. E depois disso, há muitos fatores, novamente. Existem uma espécie de código do tipo IR, algoritmos do tipo recuperação de informações que selecionam a atualidade e coisas que são realmente importantes. Existe qualidade de página. A confiabilidade dos resultados é outro grande fator. Existem coisas do tipo localização que acontecem lá. E também há navboost nisso.”

Navboost, um sistema de memorização que remonta a pelo menos 2005, foi explorado em detalhes, revelando seu papel na redução do conjunto de documentos para os sistemas de aprendizado de máquina do Google.

Treinado com minuciosidade com base nos dados de cliques dos usuários, o Navboost atua como uma espécie de memória retendo informações sobre as consultas realizadas nos últimos 13 meses.

“Navboost está analisando muitos documentos e descobrindo coisas sobre eles. Portanto, é o que seleciona de muitos documentos para menos documentos”, disse Nayak.

Além disso, o impactante papel do Navboost se estende à personalização da experiência do usuário com base na localização e no dispositivo utilizado.

A capacidade única do Navboost de “dividir informações de localidade” destaca a consideração do Google em fornecer resultados de busca contextualmente relevantes.

Além disso, mencionou o “Glue” – outro nome para Navboost que inclui todos os outros recursos da página para a intricada dinâmica do SERP do Google.

Nayak desmistificou a natureza abrangente do Glue, confirmando que desempenha um papel integral na modelagem da experiência do usuário além dos resultados da web.

“O Glue agrega diversos tipos de interações do usuário – como cliques, movimentos do mouse, rolagens e deslizamentos – e cria uma métrica comum para comparar resultados da web e recursos de pesquisa. Este processo determina se um recurso de pesquisa é acionado e onde ele é acionado na página.”

O depoimento de Nayak também trouxe à tona os algoritmos centrais do Google, incluindo RankBrain, DeepRank e MUM, detalhando como cada um contribui para a classificação de documentos.

“Uma das coisas interessantes é que você obtém muito conhecimento mundial da web. E hoje, com esses grandes modelos de linguagem que são treinados na web — você viu ChatGPT, Bard e assim por diante, eles têm muito conhecimento de mundo porque são treinados na web. Então você precisa desses dados. Eles conhecem todos os tipos de fatos específicos sobre isso. Mas você precisa de algo assim. Na pesquisa, você pode obter o conhecimento mundial porque tem um índice e recupera documentos, e esses documentos que você recupera lhe dão conhecimento mundial sobre o que está acontecendo. Mas o conhecimento mundial é profundo, complicado e complexo, e isso é – você precisa de alguma maneira de chegar a isso.”

Por fim, Nayak ressaltou a necessidade de equilibrar a confiança nos sistemas de aprendizado profundo, destacando os riscos de depender exclusivamente deles para a classificação. Além disso, o executivo discutiu questões relacionadas aos avaliadores humanos e suas limitações.

Embora desempenhem um papel crucial, o depoimento revelou desafios, como a dificuldade em entender consultas técnicas e a falta de contexto temporal em avaliações de relevância.

Este testemunho não apenas intriga profissionais de SEO, mas também mostra um equilíbrio delicado entre dados, aprendizado de máquina e aprimoramento contínuo da qualidade de pesquisa para entregar resultados relevantes a milhões de usuários globais.

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.