Os robôs agora podem aprender a usar ferramentas – apenas observando -nos

Os robôs agora podem aprender a usar ferramentas - apenas observando -nos

Crédito: UIUC HCA Lab

Apesar de décadas de progresso, a maioria dos robôs ainda é programada para tarefas específicas e repetitivas. Eles lutam com o inesperado e não conseguem se adaptar a novas situações sem reprogramação meticulosa. Mas e se eles pudessem aprender a usar as ferramentas tão naturalmente quanto uma criança, assistindo a vídeos?

Ainda me lembro da primeira vez que vi um dos robôs do nosso laboratório virar um ovo em uma frigideira. Não foi pré-programado. Ninguém estava controlando isso com um joystick. O robô simplesmente assistiu a um vídeo de um humano fazendo isso e depois o fez. Para alguém que passou anos pensando em como tornar os robôs mais adaptáveis, esse momento foi emocionante.

Nossa equipe da Universidade de Illinois Urbana-Champaign, juntamente com colaboradores da Universidade de Columbia e da UT Austin, vem explorando essa mesma pergunta. Os robôs poderiam assistir a alguém martelar um prego ou pegar uma almôndega e depois descobrir como fazê -lo, sem sensores caros, captura de movimento ou horas de teleooperação remota?

Essa idéia nos levou a criar uma nova estrutura que chamamos de “ferramenta como interface”, atualmente disponível no arxiv servidor pré -impressão. O objetivo é direto: ensine robôs habilidades complexas e dinâmicas de uso de ferramentas usando nada mais do que vídeos comuns de pessoas que realizam tarefas diárias. Só é preciso duas vistas da câmera da ação, algo que você pode capturar com alguns smartphones.






https://www.youtube.com/watch?v=dku0pl1lfq8

Crédito: UIUC HCA Lab

Aqui está como funciona. O processo começa com esses dois quadros de vídeo, que um modelo de visão chamado Mast3R usa para reconstruir um modelo tridimensional da cena. Em seguida, usando um método de renderização conhecido como Splatting Gaussiano em 3D – pense nele como pintando digitalmente uma imagem 3D da cena – geramos pontos de vista adicionais para que o robô possa “ver” a tarefa de vários ângulos.

Mas a verdadeira mágica acontece quando removemos digitalmente o humano da cena. Com a ajuda de “Grounded-Sam”, nosso sistema isola apenas a ferramenta e sua interação com o ambiente. É como dizer ao robô: “Ignore o humano e apenas preste atenção ao que a ferramenta está fazendo”.

Essa perspectiva “centrada na ferramenta” é o ingrediente secreto. Isso significa que o robô não está tentando copiar movimentos da mão humana, mas está aprendendo a trajetória exata e a orientação da própria ferramenta. Isso permite que a habilidade transfira entre diferentes robôs, independentemente de como seus braços ou câmeras estão configurados.

Testamos isso em cinco tarefas: martelando um prego, pegando uma almôndega, virar comida em uma panela, equilibrar uma garrafa de vinho e até chutar uma bola de futebol em um gol. Estes não são empregos simples de escolha e lugar; Eles requerem velocidade, precisão e adaptabilidade. Comparado aos métodos tradicionais de teleooperação, a ferramenta como interface alcançou taxas de sucesso 71% mais altas e reuniu dados de treinamento 77% mais rápido.

Um dos meus testes favoritos envolveu uma almôndega de robôs, enquanto um humano jogava em mais tarefas no meio da tarefa. O robô não hesitou, apenas se adaptou. Em outro, virou um ovo solto em uma panela, uma jogada notoriamente complicada para robôs teleoperados.

“Nossa abordagem foi inspirada pela maneira como as crianças aprendem, que é assistindo adultos”, disse meu colega e principal autor Haonan Chen. “Eles não precisam operar a mesma ferramenta que a pessoa que está assistindo; eles podem praticar com algo semelhante. Queríamos saber se poderíamos imitar essa habilidade nos robôs”.






https://www.youtube.com/watch?v=cr5t14Ebt0m

Vídeo de explicação técnica. Crédito: UIUC HCA Lab

Esses resultados apontam para algo maior do que apenas demos de laboratório. Ao remover a necessidade de operadores especializados ou hardware especializado, podemos imaginar robôs aprendendo com vídeos de smartphones, clipes do YouTube ou até filmagens de crowdsourced.

“Apesar de muito hype em torno dos robôs, eles ainda são limitados em onde podem operar com segurança e geralmente são muito piores que os humanos na maioria das tarefas”, disse a professora Katie Driggs-Campbell, que lidera nosso laboratório.

“Estamos interessados ​​em projetar estruturas e algoritmos que permitirão que os robôs aprendam facilmente com pessoas com um esforço mínimo de engenharia”.

Claro, ainda existem desafios. No momento, o sistema assume que a ferramenta é rigidamente fixada à garra do robô, o que nem sempre é verdadeiro na vida real. Às vezes, também luta com erros de estimativa de pose 6D, e as vistas da câmera sintetizadas podem perder o realismo se a mudança de ângulo for muito extrema.

No futuro, queremos tornar o sistema de percepção mais robusto, para que um robô pudesse, por exemplo, ver alguém usar um tipo de caneta e depois aplicar essa habilidade a canetas de diferentes formas e tamanhos.

Mesmo com essas limitações, acho que estamos vendo uma profunda mudança na maneira como os robôs podem aprender, longe da programação meticulosa e da observação natural. Bilhões de câmeras já estão gravando como os humanos usam ferramentas. Com os algoritmos certos, esses vídeos podem se tornar material de treinamento para a próxima geração de robôs adaptáveis ​​e úteis.

Esta pesquisa, que foi homenageada com o prêmio Best Paper no Workshop ICRA 2025 sobre modelos de fundação e IA simbólica neural (NESY) para robótica, é um passo crítico para desbloquear esse potencial, transformar o vasto oceano do vídeo gravado humano em uma biblioteca global de treinamento para robôs que podem aprender e se adaptar naturalmente como uma criança.

Esta história faz parte da caixa de diálogo Science X, onde os pesquisadores podem relatar descobertas de seus artigos de pesquisa publicados. Visite esta página para obter informações sobre a caixa de diálogo Science X e como participar.

Mais informações:
Haonan Chen et al., Ferramenta como interface: Aprendendo políticas de robôs do uso da ferramenta humana através do aprendizado de imitação, arxiv (2025). Doi: 10.48550/arxiv.2504.04612

Informações do diário:
arxiv

Cheng Zhu é o segundo autor de Tool-AS-Interface: Aprendendo Políticas de Robôs do Uso da Ferramenta Humana através de Learning de Imitação, Engenharia de Computação de Uiuc BS, UPENN MSE ROBO

Citação: Os robôs agora podem aprender a usar ferramentas-apenas assistindo-nos (2025, 23 de agosto) recuperado em 23 de agosto de 2025 de https://techxplore.com/news/2025-08-robots-tools.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.



[ad_2]

Deixe uma resposta