Óculos inteligentes Capture demos de tarefas em primeira pessoa

Um novo sistema para coletar dados marcados com ação para treinamento de robôs usando óculos inteligentes

Demonstrações humanas são feitas apenas com fornos pretos (em cima). A política transfere zero-shot para o robô com o mesmo forno (meio) e também generaliza para uma nova instância do forno (inferior). Os pontos são codificados por cores para representar a correspondência. Crédito: Liu et al.

Nas últimas décadas, os robôs gradualmente começaram a entrar em vários ambientes do mundo real, incluindo alguns shoppings, aeroportos e hospitais, além de alguns escritórios e famílias.

Para que os robôs sejam implantados em uma escala maior, servindo como assistentes diários confiáveis, eles devem ser capazes de concluir uma ampla gama de tarefas e tarefas manuais comuns, como limpeza, lavar os pratos, cozinhar e lavar a roupa.

Algoritmos de aprendizado de máquina de treinamento que permitem que os robôs concluam com êxito essas tarefas podem ser desafiadoras, pois geralmente requer extensos vídeos anotados e/ou demonstrações mostrando os humanos as tarefas. A criação de métodos mais eficazes para coletar dados para treinar algoritmos de robótica poderia, portanto, ser altamente vantajoso, pois poderia ajudar a ampliar ainda mais as capacidades dos robôs.

Pesquisadores da Universidade de Nova York e da UC Berkeley introduziram recentemente o Egozero, um novo sistema para coletar demonstrações centradas no ego de seres humanos que completam tarefas manuais específicas. Este sistema, introduzido em um artigo publicado no arxiv O servidor de pré -impressão, depende do uso de óculos do Project Aria, dos óculos inteligentes para realidade aumentada (AR) desenvolvida pela Meta.







Crédito: https://egozero-robot.github.io/

“Acreditamos que a robótica de uso geral é gargalia pela falta de dados em escala da Internet e que a melhor maneira de resolver esse problema seria coletar e aprender com dados humanos em primeira pessoa”, disse Lerrel Pinto, autor sênior do artigo, ao Tech Xplore.

“Os principais objetivos deste projeto foram desenvolver uma maneira de coletar dados precisos marcados com a ação para o treinamento de robôs, otimizar a ergonomia dos vestíveis de coleta de dados necessários e transferir comportamentos humanos para políticas de robô com dados de robô zero”.

EgoZero, o novo sistema desenvolvido por Pinto e seus colegas, conta com óculos inteligentes do Project Aria para coletar facilmente demonstrações de vídeo de seres humanos que concluíram tarefas enquanto executam ações executáveis ​​do robô, capturadas do ponto de vista da pessoa que usa os óculos.

Por sua vez, essas demonstrações podem ser usadas para treinar algoritmos de robótica em novas políticas de manipulação, o que, por sua vez, pode permitir que os robôs concluam com êxito várias tarefas manuais.

“Diferentemente dos trabalhos anteriores que requerem várias câmeras calibradas, wearables de pulso ou luvas de captura de movimento, o egoZero é único, pois é capaz de extrair essas representações 3D com apenas óculos inteligentes (Project Aria Smart Glasses)”, explicou Ademi Adeniji, aluno e co-autor do artigo.

“Como resultado, os robôs podem aprender uma nova tarefa a partir de 20 minutos de demonstrações humanas, sem teleoperação”.

Um novo sistema para coletar dados marcados com ação para treinamento de robôs usando óculos inteligentes

Diagrama de arquitetura. O egoZero treina políticas em um espaço de ação estatal unificado definido como pontos 3D egocêntricos. Diferentemente dos métodos anteriores, o egoZero localiza pontos de objeto via triangulação sobre a trajetória da câmera e calcula pontos de ação via pose de mão de MPS ARIA e um modelo de estimativa de mão. Esses pontos supervisionam uma política de transformador de circuito fechado, lançado em pontos não-projetados de um iPhone durante a inferência. Crédito: Liu et al.

Para avaliar seu sistema proposto, os pesquisadores o usaram para coletar demonstrações de vídeo de ações simples que são comumente concluídas em um ambiente doméstico (por exemplo, abrindo uma porta do forno) e depois usaram essas demonstrações para treinar um algoritmo de aprendizado de máquina.

O algoritmo de aprendizado de máquina foi então implantado em Franka Panda, um braço robótico com uma garra presa no final. Notavelmente, eles descobriram que o braço robótico concluiu com sucesso a maioria das tarefas em que o testou, mesmo que o algoritmo planejasse seus movimentos sofrendo treinamento mínimo.

“A maior contribuição do EgoZero é que ele pode transferir comportamentos humanos para políticas de robôs com dados de robôs zero, com apenas um par de óculos inteligentes”, disse Pinto.

“Ele estende o trabalho passado (política de pontos), mostrando que as representações 3D permitem o aprendizado eficiente de robôs com os seres humanos, mas completamente no wild. Esperamos que isso sirva como base para a exploração futura de representações e algoritmos para permitir a aprendizagem humano a robô em escala”.

O código para o sistema de coleta de dados introduzido por Pinto e seus colegas foi publicado no Github e pode ser facilmente acessado por outras equipes de pesquisa.

No futuro, poderia ser usado para coletar rapidamente conjuntos de dados para treinar algoritmos de robótica, o que poderia contribuir para o desenvolvimento de robôs, finalmente facilitando sua implantação em um maior número de famílias e escritórios em todo o mundo.

“Agora esperamos explorar as compensações entre representações 2D e 3D em uma escala maior”, acrescentou Vincent Liu, aluno e co-líder do artigo.

“O egoZero e o trabalho anterior (Point Policy, P3PO) exploraram apenas as políticas 3D de tarefas únicas, por isso seria interessante estender essa estrutura de aprendizado dos pontos 3D na forma de um LLM/VLM de ajuste fino, semelhante ao quão modernos modelos de VLA são treinados”.

Escrito para você por nosso autor Ingrid Fadelli, editado por Lisa Lock, e verificou e revisado por Robert Egan-este artigo é o resultado de um trabalho humano cuidadoso. Confiamos em leitores como você para manter vivo o jornalismo científico independente. Se este relatório é importante para você, considere uma doação (especialmente mensalmente). Você vai conseguir um sem anúncios conta como um agradecimento.

Mais informações:
Vincent Liu et al., EgoZero: Robot Aprendendo com óculos inteligentes, arxiv (2025). Doi: 10.48550/arxiv.2505.20290

Informações do diário:
arxiv

© 2025 Science X Network

Citação: Robôs de treinamento sem robôs: óculos inteligentes Capture demos de tarefas em primeira pessoa (2025, 12 de junho) Recuperado em 12 de junho de 2025 em https://techxplore.com/news/2025-06-robots-smart-glasses-capture-per-per.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.



[ad_2]

Deixe uma resposta