Uma nova estrutura para coletar dados de treinamento e ensinar aos robôs novas políticas de manipulação

Estrutura para coletar dados de treinamento e ensinar aos robôs novas políticas de manipulação

Projeto de interface de demonstração UMI. Esquerda: Pinças manuais para coleta de dados, com uma GoPro como único sensor e dispositivo de gravação. Meio: Imagem da visualização Fisheye de 155° da GoPro. Observe os espelhos laterais físicos destacados em verde que fornecem informações estéreo implícitas. À direita: A pinça robótica compatível com UMI e a configuração da câmera tornam a observação semelhante à visualização da pinça portátil. Crédito: arXiv (2024). DOI: 10.48550/arxiv.2402.10329

Nos últimos anos, roboticistas e cientistas da computação têm tentado desenvolver métodos cada vez mais eficientes para ensinar novas habilidades aos robôs. Muitos dos métodos desenvolvidos até agora, entretanto, requerem uma grande quantidade de dados de treinamento, como demonstrações humanas anotadas de como executar uma tarefa.

Pesquisadores da Universidade de Stanford, da Universidade de Columbia e do Toyota Research Institute desenvolveram recentemente a Universal Manipulation Interface (UMI), uma estrutura para coletar dados de treinamento e transferir habilidades de demonstrações humanas na natureza para políticas implantáveis ​​em robôs.

Esta estrutura, introduzida em um artigo postado no servidor de pré-impressão arXivpoderia contribuir para o avanço dos sistemas robóticos, ao acelerar e facilitar o seu treinamento em novas tarefas de manipulação de objetos.

“No ano passado, a comunidade robótica viu um enorme avanço na capacidade robótica e na complexidade das tarefas, impulsionado por uma onda de algoritmos de aprendizagem de imitação, incluindo nosso trabalho anterior ‘Política de Difusão’”, disse Cheng Chi, co-autor do artigo, ao Tech Xplore.

“Esses algoritmos absorvem conjuntos de dados de teleoperação humana e produzem uma rede neural profunda de ponta a ponta que orienta as ações do robô diretamente dos pixels. Esses métodos são tão poderosos que sentimos que com conjuntos de dados de demonstração suficientemente grandes e diversos, não há limite óbvio em sua capacidades.

“No entanto, ao contrário de outros campos, como processamento de linguagem natural (PNL) ou visão computacional (CV), não há dados robóticos amplamente disponíveis na Internet, portanto, temos que coletar os dados nós mesmos.”

A compilação de grandes conjuntos de dados contendo uma ampla gama de dados de demonstração por meio de teleoperação (ou seja, a operação remota de robôs físicos) pode ser cara e demorada. Além disso, a logística necessária para transportar robôs complica a recolha de dados variados.

Chi e seus colegas decidiram enfrentar esses desafios relatados no treinamento de robôs de uma forma escalonável e eficiente. O principal objetivo do seu estudo recente foi desenvolver um método escalonável para coletar dados de treinamento robótico do mundo real em uma ampla variedade de ambientes.







Crédito: Chi et al

“Em 2020, nosso laboratório publicou um trabalho chamado ‘Grasping in the wild’, que foi pioneiro na ideia de usar um dispositivo de pinça portátil, combinado com uma câmera montada no pulso, para coletar dados na natureza”, explicou Chi. “No entanto, limitado pelos algoritmos de aprendizagem da época, bem como por algumas falhas de design de hardware, o sistema está limitado a tarefas simples, como agarrar objetos.”

Com base em seus trabalhos anteriores, Chi e seus colegas projetaram um novo sistema para coletar dados e treinar robôs. Este sistema, denominado UMI, inclui uma pinça robótica portátil e uma estrutura de aprendizagem profunda que combina os recursos vantajosos de algoritmos de aprendizagem de imitação desenvolvidos recentemente, como a “Política de Difusão”.

“UMI é uma estrutura de coleta de dados e aprendizagem de políticas que permite a transferência direta de habilidades de demonstrações humanas em estado selvagem para políticas de robôs implantáveis”, explicou Chi. “Ele consiste em dois componentes. O primeiro é uma interface física (ou seja, as pinças impressas em 3D montadas com GoPros) para capturar todas as informações necessárias para o aprendizado de políticas, permanecendo altamente intuitiva, econômica, portátil e confiável. O segundo é um interface de política (ou seja, API) que define uma maneira padrão de aprender com os dados que permite a transferência entre hardware (ou seja, implantação em vários robôs do mundo real).”

A estrutura desenvolvida por Chi e seus colaboradores tem inúmeras vantagens sobre outros métodos de coleta de dados e treinamento de manipuladores robóticos. Primeiro, as garras UMI desenvolvidas por eles eram muito mais intuitivas do que as abordagens de teleoperação introduzidas anteriormente.

“Um coletor de dados pode demonstrar tarefas muito mais difíceis com muito mais rapidez em comparação ao teletransporte”, disse Chi, “Como resultado, a política aprendida se torna mais eficaz”.







Crédito: Chi et al

A segunda vantagem da UMI é que ela permite a coleta de conjuntos de dados grandes e diversos que permitem aos robôs generalizar bem em ambientes invisíveis e tarefas de manipulação de objetos. Coletar esses dados usando UMI também é muito mais barato e viável do que compilar conjuntos de dados de treinamento anotados usando métodos convencionais.

“A UMI também permite generalização entre hardware”, disse Chi. “Qualquer laboratório de pesquisa pode modernizar seus braços robóticos industriais com pinças e câmeras compatíveis com UMI e implantar diretamente as políticas que treinamos ou aproveitar os dados que coletamos para pré-treinamento. Em comparação, a maior parte do conjunto de dados que existe atualmente são específico para uma incorporação de robô e muitas vezes para um ambiente de laboratório específico. Como resultado, a UMI poderia permitir o compartilhamento de dados robóticos em grande escala na academia, de forma semelhante aos conjuntos de dados usados ​​na comunidade de PNL e CV.”

Nas experiências iniciais, a abordagem UMI produziu resultados muito promissores. Descobriu-se que ele permite um aprendizado de imitação altamente intuitivo de ponta a ponta, treinando robôs em várias tarefas complexas de manipulação com esforços limitados de engenharia por parte dos pesquisadores, incluindo lavar louça e dobrar roupas.

“Nossos experimentos também mostraram que, com dados diversos, a aprendizagem por imitação de ponta a ponta pode ser generalizada para ambientes selvagens e invisíveis e objetos invisíveis”, disse Chi. “Em contraste, o padrão para avaliar esses métodos de aprendizagem de imitação de ponta a ponta anteriormente usava o mesmo ambiente para treinamento e teste. Coletivamente, as evidências que coletamos sugerem que, com um conjunto de dados robótico suficientemente grande e diversificado, robôs de uso geral como robôs domésticos podem se tornar viáveis, mesmo sem uma mudança de paradigma nos algoritmos de aprendizagem”.

A nova estrutura introduzida por Chi e seus colaboradores poderá em breve ser usada para coletar outros conjuntos de dados de treinamento e testada em uma gama mais ampla de tarefas complexas de manipulação. O design da pinça UMI e seu software subjacente são de código aberto e podem ser acessados ​​por outras equipes no GitHub.

“Queremos agora expandir ainda mais as capacidades e modalidades de observação da UMI, melhorando o hardware e adaptando-os a uma gama mais ampla de robôs”, acrescentou Chi. “Também planejamos coletar ainda mais dados e usá-los para melhorar ainda mais os algoritmos de aprendizagem”.

Mais Informações:
Cheng Chi et al, Interface de Manipulação Universal: Ensino de Robôs In-The-Wild Sem Robôs In-The-Wild, arXiv (2024). DOI: 10.48550/arxiv.2402.10329

Informações do diário:
arXiv

© 2024 Science X Network

Citação: Uma nova estrutura para coletar dados de treinamento e ensinar aos robôs novas políticas de manipulação (2024, 18 de março) recuperada em 18 de março de 2024 em https://techxplore.com/news/2024-03-framework-robots-policies.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



[ad_2]

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *