O algoritmo permite um robô ‘pensar no futuro’ e considerar milhares de planos de movimento em potencial simultaneamente

O novo sistema permite que os robôs resolvam problemas de manipulação em segundos

Visão geral do corte. Crédito: arxiv (2024). Doi: 10.48550/arxiv.2411.11833

Pronto para aquelas férias de verão tão esperadas? Primeiro, você precisará embalar todos os itens necessários para sua viagem em uma mala, certificando -se de que tudo se encaixe com segurança sem esmagar nada frágil.

Como os humanos possuem fortes habilidades visuais e geométricas de raciocínio, esse geralmente é um problema direto, mesmo que seja necessário um pouco de finalização para espremer tudo.

Para um robô, porém, é um desafio de planejamento extremamente complexo que requer pensar simultaneamente sobre muitas ações, restrições e capacidades mecânicas. Encontrar uma solução eficaz pode levar o robô por muito tempo – se pode até criar um.

Pesquisadores da MIT e NVIDIA Research desenvolveram um novo algoritmo que acelera drasticamente o processo de planejamento do robô. Sua abordagem permite que um robô “pense no futuro” avaliando milhares de soluções possíveis em paralelo e depois refinando as melhores para atender às restrições do robô e de seu ambiente.

Em vez de testar cada ação potencial uma de cada vez, como muitas abordagens existentes, esse novo método considera milhares de ações simultaneamente, resolvendo problemas de manipulação de várias etapas em questão de segundos.

Os pesquisadores aproveitam o enorme poder computacional de processadores especializados chamados GPUs (GPUs) para permitir essa aceleração.

Em uma fábrica ou armazém, sua técnica pode permitir que os robôs determinem rapidamente como manipular e embalar firmemente itens que têm formas e tamanhos diferentes sem danificá -los, derrubar nada ou colidir com obstáculos, mesmo em um espaço estreito.

“Isso seria muito útil em ambientes industriais, onde o tempo realmente importa e você precisa encontrar uma solução eficaz o mais rápido possível. Se o seu algoritmo leva minutos para encontrar um plano, em oposição a segundos, que custa o dinheiro dos negócios”, diz o estudante de graduação do MIT William Shen Sm ’23, principal autor do artigo sobre essa técnica.

Ele se junta ao jornal de Caelan Garrett ’15, Meng ’15, Ph.D. ’21, um cientista sênior de pesquisa da NVIDIA Research; Nishanth Kumar, um estudante de pós -graduação do MIT; Ankit Goyal, um cientista de pesquisa da NVIDIA; Tucker Hermans, cientista da NVIDIA e professor associado da Universidade de Utah; Leslie Pack Keelbling, professor de ciência e engenharia da Panasonic da Computação do MIT e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); Tomás Lozano-Pérez, professor de ciência e engenharia da computação e membro da CSAIL; e Fabio Ramos, cientista de pesquisa principal da NVIDIA e professor da Universidade de Sydney.

A pesquisa será apresentada na Conferência Robótica: Ciência e Sistemas, realizada de 21 a 25 de junho em Los Angeles, Califórnia. O papel também está disponível no arxiv servidor pré -impressão.

Planejamento em paralelo

O algoritmo dos pesquisadores foi projetado para o que é chamado de planejamento de tarefas e movimento (Tamp). O objetivo de um algoritmo TAMP é criar um plano de tarefas para um robô, que é uma sequência de ações de alto nível, juntamente com um plano de movimento, que inclui parâmetros de ação de baixo nível, como posições conjuntas e orientação da pinça, que completam esse plano de alto nível.

Para criar um plano para embalar itens em uma caixa, um robô precisa raciocinar sobre muitas variáveis, como a orientação final de objetos empacotados para que eles se encaixem, bem como como ele os buscará e manipulá -los usando seu braço e garra.

Deve fazer isso ao determinar como evitar colisões e obter restrições especificadas pelo usuário, como uma certa ordem para empacotar itens.

Com tantas seqüências de ações em potencial, a amostragem de possíveis soluções aleatoriamente e a tentativa de uma de cada vez pode demorar muito tempo.

“É um espaço de pesquisa muito grande, e muitas ações que o robô realiza nesse espaço não alcançam nada produtivo”, acrescenta Garrett.

Em vez disso, o algoritmo dos pesquisadores, chamado Cutamp, que é acelerado usando uma plataforma de computação paralela chamada CUDA, simula e refina milhares de soluções em paralelo. Faz isso combinando duas técnicas, amostragem e otimização.

A amostragem envolve a escolha de uma solução para tentar. Mas, em vez de amostrar soluções aleatoriamente, o corte limita a gama de soluções em potencial para aqueles com maior probabilidade de satisfazer as restrições do problema. Esse procedimento de amostragem modificado permite que o Cutamp explore amplamente as soluções potenciais e diminuindo o espaço de amostragem.

“Depois que combinamos as saídas dessas amostras, obtemos um ponto de partida muito melhor do que se amostarmos aleatoriamente. Isso garante que possamos encontrar soluções mais rapidamente durante a otimização”, diz Shen.

Depois que o Cutamp gerou esse conjunto de amostras, ele executa um procedimento de otimização paralelo que calcula um custo, que corresponde a quão bem cada amostra evita colisões e satisfaz as restrições de movimento do robô, bem como quaisquer objetivos definidos pelo usuário.

Ele atualiza as amostras em paralelo, escolhe os melhores candidatos e repete o processo até que as restrinja a uma solução bem -sucedida.

Aproveitando a computação acelerada

Os pesquisadores aproveitam as GPUs, processadores especializados que são muito mais poderosos para computação paralela e cargas de trabalho do que as CPUs de uso geral, para ampliar o número de soluções que podem provar e otimizar simultaneamente. Isso maximizou o desempenho de seu algoritmo.

“Usando as GPUs, o custo computacional de otimizar uma solução é o mesmo que otimizar centenas ou milhares de soluções”, explica Shen.

Quando testaram sua abordagem nos desafios de embalagem do tipo Tetris na simulação, o Cutamp levou apenas alguns segundos para encontrar planos bem-sucedidos e sem colisão que possam levar abordagens de planejamento seqüencial por muito mais tempo para resolver.

E quando implantado em um braço robótico real, o algoritmo sempre encontrou uma solução em menos de 30 segundos.

O sistema trabalha nos robôs e foi testado em um braço robótico no MIT e em um robô humanóide na Nvidia. Como o Cutamp não é um algoritmo de aprendizado de máquina, ele não requer dados de treinamento, o que pode permitir que ele seja prontamente implantado em muitas situações.

“Você pode dar um problema totalmente novo e isso provavelmente o resolverá”, diz Garrett.

O algoritmo é generalizável para situações além da embalagem, como um robô usando ferramentas. Um usuário pode incorporar diferentes tipos de habilidades no sistema para expandir automaticamente os recursos de um robô.

No futuro, os pesquisadores desejam aproveitar grandes modelos de idiomas e modelos de linguagem de visão no Cutamp, permitindo que um robô formule e execute um plano que atinja objetivos específicos baseados em comandos de voz de um usuário.

Mais informações:
William Shen et al., Tarefa de GPU diferenciável e planejamento de movimento, arxiv (2024). Doi: 10.48550/arxiv.2411.11833

Informações do diário:
arxiv

Fornecido pelo Instituto de Tecnologia de Massachusetts

Esta história é republicada, cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que abrange notícias sobre pesquisa, inovação e ensino do MIT.

Citação: O algoritmo permite um robô ‘pense no futuro’ e considerar milhares de planos de movimento em potencial simultaneamente (2025, 5 de junho) recuperados em 5 de junho de 2025 em https://techxplore.com/news/2025-06-algorithm-robot-hils-potential-motion.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.



[ad_2]

Deixe uma resposta