Aprendizado visual: Google explora o potencial dos vídeos no treinamento de robôs

Renê Fraga
3 min de leitura

O Google divulgou recentemente novos métodos para treinar robôs utilizando vídeos, visando aprimorar o entendimento dessas máquinas.

A equipe de pesquisadores do Google DeepMind Robotics tem explorado o potencial dessa abordagem, que combina inteligência artificial generativa com modelos de base ampla.

Em um post de blog, eles destacam as pesquisas em andamento para que os robôs compreendam melhor o que os seres humanos esperam deles.

Tradicionalmente, os robôs são projetados para executar uma única tarefa repetidamente ao longo de sua vida útil. Embora sejam eficientes nessa função específica, eles enfrentam dificuldades quando ocorrem mudanças ou erros não intencionais.

Imagem relacionada a Aprendizado visual: Google explora o potencial dos vídeos no treinamento de robôs

O novo método chamado AutoRT utiliza modelos de base ampla para diversos fins. Em um exemplo dado pela equipe do DeepMind, o sistema utiliza um Modelo de Linguagem Visual (VLM) para uma melhor percepção da situação.

O AutoRT é capaz de gerenciar um grupo de robôs que trabalham em conjunto, equipados com câmeras para obter uma visão do ambiente e dos objetos presentes nele.

Além disso, um grande modelo de linguagem (LLM, na sigla em inglês) sugere tarefas que podem ser realizadas pelo hardware, incluindo o efetuador final do robô.

Os LLMs são considerados essenciais para que os robôs compreendam com eficácia comandos em linguagem natural, reduzindo a necessidade de programação rígida.

O sistema AutoRT já passou por extensos testes nos últimos meses. Ele é capaz de coordenar até 20 robôs simultaneamente, com um total de 52 dispositivos diferentes. Ao todo, o DeepMind coletou mais de 77.000 experimentos, abrangendo mais de 6.000 tarefas.

Outra novidade apresentada pela equipe é o RT-Trajectory, que utiliza vídeos como entrada para o aprendizado dos robôs.

Muitas equipes estão explorando o uso de vídeos do YouTube para treinar robôs em grande escala, mas o RT-Trajectory adiciona uma camada interessante, sobrepondo um esboço bidimensional do movimento do braço sobre o vídeo.

A equipe afirma que o treinamento com o RT-Trajectory teve o dobro de taxa de sucesso em comparação com o treinamento RT-2, atingindo 63% em 41 tarefas.

Esses avanços não apenas contribuem para o desenvolvimento de robôs capazes de se mover com precisão e eficiência em situações novas, mas também possibilitam aproveitar o conhecimento de conjuntos de dados existentes.

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.

Seguir:
Renê Fraga é fundador do Google Discovery (GD) e editor-chefe do Eurisko. Profissional de marketing digital, com pós-graduação pela ESPM, acompanha o Google desde os anos 2000 e escreve há mais de duas décadas sobre tecnologia, produtos digitais e o ecossistema da empresa. Criador do Google Discovery em 2006, tornou-se referência na cobertura do Google no Brasil e foi colunista do TechTudo (Globo.com), compartilhando análises e conhecimento com um grande público.
Nenhum comentário