PaLM-E: o robô do Google que está aprendendo a entender o mundo à sua volta como um ser humano

Renê Fraga
4 min de leitura

Os robôs sempre foram fascinantes para as pessoas, mas agora a Google nos apresenta um robô capaz de entender a linguagem e a visão, como um humano.

O PaLM-E, como é chamado, é um modelo de linguagem e robótica multimodal encarnado, com mais de 562 bilhões de parâmetros que permite o controle autônomo de robôs.

O que significa que ele pode executar uma ampla variedade de tarefas com base nos comandos de voz humana, sem a necessidade de treinamento constante.

Usando a câmera do robô, o PaLM-E pode ver o ambiente ao seu redor sem precisar de representação de cena pré-processada.

Ele simplesmente olha e absorve o que vê e, em seguida, trabalha para determinar o que precisa fazer com base nisso.

Ou seja, não há necessidade de um ser humano anotar os dados visuais primeiro.

Os pesquisadores da Google afirmam que o PaLM-E também é capaz de reagir a mudanças no ambiente enquanto executa uma tarefa.

Por exemplo, se ele for instruído a buscar um pacote de salgadinho, mas outra pessoa o pegar e colocar em uma mesa, o robô pode identificar o ocorrido e recuperar os salgadinhos para levar à pessoa que o solicitou.

Este robô também é capaz de realizar tarefas mais complexas que exigem sequências de ações, que antes precisariam de orientação humana.

Com base em um comando de voz como “Eu derramei minha bebida, você pode me trazer algo para limpar?”, o PaLM-E pode planejar uma sequência de ações para pegar uma esponja, levá-la até a pessoa e deixá-la no local correto.

Além disso, o PaLM-E exibe uma característica conhecida como “transferência positiva”, o que significa que ele pode transferir o conhecimento e as habilidades aprendidas de tarefas anteriores para novas tarefas, resultando em um desempenho mais alto do que os modelos de robô de única tarefa.

Mas como isso funciona?

PaLM-E injeta observações em um modelo de linguagem pré-treinado, convertendo os dados do sensor, como as imagens, em uma representação comparável à como as palavras do linguagem natural são processadas.

Isso permite que o modelo de linguagem aplique operações matemáticas sobre a sequência resultante de vetores para prever a próxima palavra mais provável.

PaLM-E é um modelo generalista, projetado para a robótica, mas também capaz de realizar tarefas de visão e linguagem. Isso tem implicações importantes para o futuro da robótica e do aprendizado multimodal.

A capacidade de PaLM-E para realizar tarefas de linguagem, visão e robótica de maneira eficiente e generalizar a novas tarefas não vistas, tem o potencial de unificar tarefas que anteriormente pareciam separadas.

PaLM-E oferece uma nova forma de treinar modelos generalistas, combinando tarefas de robótica e visão e linguagem através de uma representação comum.

Os resultados mostram que PaLM-E pode abordar um conjunto diverso de tarefas robóticas e de visão e linguagem de maneira efetiva.

Com a ajuda da linguagem natural, PaLM-E é capaz de controlar robôs e aprender tarefas de robótica de maneira eficiente.

✨ Curtiu este conteúdo?

O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌

Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!

Clique aqui e faça parte da nossa rede de apoiadores.

Seguir:
Renê Fraga é fundador do Google Discovery (GD) e editor-chefe do Eurisko. Profissional de marketing digital, com pós-graduação pela ESPM, acompanha o Google desde os anos 2000 e escreve há mais de duas décadas sobre tecnologia, produtos digitais e o ecossistema da empresa. Criador do Google Discovery em 2006, tornou-se referência na cobertura do Google no Brasil e foi colunista do TechTudo (Globo.com), compartilhando análises e conhecimento com um grande público.
Nenhum comentário