Usando a linguagem para dar aos robôs uma melhor compreensão de um mundo aberto

Usando a linguagem para dar aos robôs uma melhor compreensão de um mundo aberto

Os Feature Fields for Robotic Manipulation (F3RM) permitem que os robôs interpretem prompts de texto abertos usando linguagem natural, ajudando as máquinas a manipular objetos desconhecidos. Os campos de recursos 3D do sistema podem ser úteis em ambientes que contêm milhares de objetos, como armazéns. Crédito: William Shen e outros

Imagine que você está visitando um amigo no exterior e olha dentro da geladeira dele para ver o que seria um ótimo café da manhã. Muitos dos itens inicialmente parecem estranhos para você, cada um deles envolto em embalagens e recipientes desconhecidos. Apesar dessas distinções visuais, você começa a entender para que serve cada um e a selecioná-los conforme necessário.

Inspirado pela capacidade humana de lidar com objetos desconhecidos, um grupo do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT projetou Feature Fields for Robotic Manipulation (F3RM), um sistema que combina imagens 2D com recursos de modelo básico em cenas 3D para ajudar os robôs a identificar e agarrar itens próximos. O F3RM pode interpretar instruções de linguagem aberta de humanos, tornando o método útil em ambientes do mundo real que contêm milhares de objetos, como armazéns e residências.

O F3RM oferece aos robôs a capacidade de interpretar prompts de texto abertos usando linguagem natural, ajudando as máquinas a manipular objetos. Como resultado, as máquinas podem compreender solicitações menos específicas dos humanos e ainda assim concluir a tarefa desejada. Por exemplo, se um usuário pedir ao robô para “pegar uma caneca alta”, o robô poderá localizar e pegar o item que melhor se adapta a essa descrição.

“Fazer robôs que possam realmente generalizar no mundo real é incrivelmente difícil”, diz Ge Yang, pós-doutorado no Instituto de Inteligência Artificial e Interações Fundamentais da National Science Foundation e no MIT CSAIL. “Queremos realmente descobrir como fazer isso, por isso, com este projeto, tentamos promover um nível agressivo de generalização, de apenas três ou quatro objetos para qualquer coisa que encontrarmos no Stata Center do MIT. Queríamos aprender como fazer robôs tão flexíveis quanto nós, já que podemos agarrar e posicionar objetos mesmo que nunca os tenhamos visto antes.”

Aprendendo ‘o que está onde olhando’

O método poderia ajudar os robôs a selecionar itens em grandes centros de distribuição com desordem e imprevisibilidade inevitáveis. Nesses armazéns, os robôs geralmente recebem uma descrição do estoque que precisam identificar. Os robôs devem combinar o texto fornecido com um objeto, independente das variações na embalagem, para que os pedidos dos clientes sejam enviados corretamente.

Por exemplo, os centros de atendimento dos principais varejistas on-line podem conter milhões de itens, muitos dos quais um robô nunca teria encontrado antes. Para operar em tal escala, os robôs precisam compreender a geometria e a semântica de diferentes itens, alguns deles em espaços apertados. Com as avançadas habilidades de percepção espacial e semântica do F3RM, um robô poderia se tornar mais eficaz na localização de um objeto, colocando-o em uma lixeira e depois enviando-o para embalagem. Em última análise, isso ajudaria os trabalhadores da fábrica a enviar os pedidos dos clientes com mais eficiência.

“Uma coisa que muitas vezes surpreende as pessoas com o F3RM é que o mesmo sistema também funciona em escala de sala e edifício, e pode ser usado para construir ambientes de simulação para aprendizagem de robôs e mapas grandes”, diz Yang. “Mas antes de ampliarmos ainda mais este trabalho, queremos primeiro fazer com que este sistema funcione muito rápido. Desta forma, podemos usar este tipo de representação para tarefas de controle robótico mais dinâmicas, esperançosamente em tempo real, para que os robôs que lidam com mais tarefas dinâmicas podem usá-lo para percepção.”

A equipe do MIT observa que a capacidade do F3RM de compreender diferentes cenas poderia torná-lo útil em ambientes urbanos e domésticos. Por exemplo, a abordagem poderia ajudar robôs personalizados a identificar e recolher itens específicos. O sistema ajuda os robôs a compreender o que está ao seu redor – tanto física quanto perceptivamente.

“A percepção visual foi definida por David Marr como o problema de saber ‘o que está onde olhando'”, diz o autor sênior Phillip Isola, professor associado de engenharia elétrica e ciência da computação do MIT e investigador principal do CSAIL.

“Os modelos básicos recentes ficaram muito bons em saber o que estão olhando; eles podem reconhecer milhares de categorias de objetos e fornecer descrições de texto detalhadas de imagens. Ao mesmo tempo, os campos de brilho ficaram muito bons em representar onde as coisas estão em uma cena . A combinação dessas duas abordagens pode criar uma representação do que está onde em 3D, e o que nosso trabalho mostra é que essa combinação é especialmente útil para tarefas robóticas, que exigem a manipulação de objetos em 3D.”

Criando um ‘gêmeo digital’

F3RM começa a entender o que está ao seu redor tirando fotos com um bastão de selfie. A câmera montada captura 50 imagens em diferentes poses, permitindo construir um campo de radiação neural (NeRF), um método de aprendizagem profunda que utiliza imagens 2D para construir uma cena 3D. Esta colagem de fotos RGB cria um “gêmeo digital” do ambiente ao seu redor na forma de uma representação de 360 ​​graus do que está próximo.

Além de um campo de radiância neural altamente detalhado, o F3RM também constrói um campo de recursos para aumentar a geometria com informações semânticas. O sistema usa CLIP, um modelo básico de visão treinado em centenas de milhões de imagens para aprender conceitos visuais com eficiência. Ao reconstruir os recursos 2D CLIP para as imagens tiradas pelo selfie stick, o F3RM transforma efetivamente os recursos 2D em uma representação 3D.

Manter as coisas abertas

Depois de receber algumas demonstrações, o robô aplica o que sabe sobre geometria e semântica para captar objetos que nunca encontrou antes. Depois que um usuário envia uma consulta de texto, o robô pesquisa no espaço de possíveis capturas para identificar aquelas com maior probabilidade de sucesso na captura do objeto solicitado pelo usuário. Cada opção potencial é pontuada com base em sua relevância para o prompt, na semelhança com as demonstrações nas quais o robô foi treinado e se causa alguma colisão. A compreensão com maior pontuação é então escolhida e executada.

Para demonstrar a capacidade do sistema de interpretar solicitações abertas de humanos, os pesquisadores levaram o robô a pegar Baymax, um personagem do “Big Hero 6” da Disney. Embora F3RM nunca tenha sido treinado diretamente para pegar um brinquedo do super-herói de desenho animado, o robô usou sua consciência espacial e recursos de linguagem visual dos modelos básicos para decidir qual objeto agarrar e como pegá-lo.

O F3RM também permite que os usuários especifiquem qual objeto desejam que o robô manipule em diferentes níveis de detalhe linguístico. Por exemplo, se houver uma caneca de metal e uma caneca de vidro, o usuário pode pedir ao robô a “caneca de vidro”. Caso o bot veja duas canecas de vidro e uma delas esteja cheia de café e a outra de suco, o usuário pode pedir a “caneca de vidro com café”. Os recursos do modelo básico incorporados no campo de recursos permitem esse nível de compreensão aberta.

“Se eu mostrasse a uma pessoa como pegar uma caneca pela borda, ela poderia facilmente transferir esse conhecimento para pegar objetos com geometrias semelhantes, como tigelas, copos medidores ou até mesmo rolos de fita adesiva. Para robôs, alcançar esse nível de adaptabilidade tem sido bastante desafiador”, diz Ph.D. do MIT. estudante, afiliado do CSAIL e co-autor principal William Shen.

“F3RM combina compreensão geométrica com semântica de modelos básicos treinados em dados em escala da Internet para permitir este nível de generalização agressiva a partir de apenas um pequeno número de demonstrações.”

O artigo, “Campos de recursos destilados permitem manipulação guiada por linguagem de poucas fotos”, foi publicado no arXiv servidor de pré-impressão.

Mais Informações:
William Shen et al, Campos de recursos destilados permitem manipulação guiada por linguagem de poucos disparos, arXiv (2023). DOI: 10.48550/arxiv.2308.07931

Informações do diário:
arXiv

Fornecido pelo Instituto de Tecnologia de Massachusetts

Esta história foi republicada como cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e ensino do MIT.

Citação: Usando a linguagem para dar aos robôs uma melhor compreensão de um mundo aberto (2023, 2 de novembro) recuperado em 2 de novembro de 2023 em https://techxplore.com/news/2023-11-language-robots-grasp-open-ended- mundo.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



[ad_2]

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *