Robôs treinados com conjunto de dados espaciais mostram melhor manipulação e conscientização de objetos

robô

Crédito: CC0 Domínio Público

Quando se trata de navegar pelo ambiente, as máquinas têm uma desvantagem natural em comparação aos humanos. Para ajudar a aprimorar as habilidades de percepção visual necessárias para compreender o mundo, os pesquisadores desenvolveram um novo conjunto de dados de treinamento para melhorar a consciência espacial em robôs.

Numa nova investigação, experiências mostraram que os robôs treinados com este conjunto de dados, denominado RoboSpatial, superaram aqueles treinados com modelos de base na mesma tarefa robótica, demonstrando uma compreensão complexa das relações espaciais e da manipulação de objetos físicos.

Para os humanos, a percepção visual molda a forma como interagimos com o meio ambiente, desde o reconhecimento de diferentes pessoas até a manutenção da consciência dos movimentos e da posição do nosso corpo. Apesar das tentativas anteriores de imbuir os robôs com essas habilidades, os esforços foram insuficientes, pois a maioria é treinada com dados que carecem de compreensão espacial sofisticada.

Como a compreensão espacial profunda é necessária para interações intuitivas, se não for abordada, esses desafios de raciocínio espacial podem prejudicar a capacidade dos futuros sistemas de IA de compreender instruções complexas e operar em ambientes dinâmicos, disse Luke Song, principal autor do estudo e atual Ph.D. estudante de engenharia na Ohio State University.

“Para ter verdadeiros modelos de base de uso geral, um robô precisa entender o mundo 3D ao seu redor”, disse ele. “Portanto, a compreensão espacial é uma das capacidades mais cruciais para isso.”

O estudo foi recentemente apresentado como uma apresentação oral na Conferência sobre Visão Computacional e Reconhecimento de Padrões. O trabalho está publicado na revista Conferência IEEE/CVF 2025 sobre Visão Computacional e Reconhecimento de Padrões (CVPR).

Para ensinar os robôs a interpretar melhor a perspectiva, o RoboSpatial inclui mais de um milhão de imagens internas e de mesa do mundo real, milhares de digitalizações 3D detalhadas e 3 milhões de rótulos que descrevem informações espaciais ricas e relevantes para a robótica. Usando esses vastos recursos, a estrutura combina imagens egocêntricas 2D com varreduras 3D completas da mesma cena, para que o modelo aprenda a identificar objetos usando reconhecimento de imagem plana ou geometria 3D.

Segundo o estudo, é um processo que imita de perto as pistas visuais do mundo real.

Por exemplo, embora os atuais conjuntos de dados de treinamento possam permitir que um robô descreva com precisão uma “tigela sobre a mesa”, o modelo não teria a capacidade de discernir onde ela realmente está na mesa, onde deveria ser colocada para permanecer acessível ou como poderia se encaixar com outros objetos. Em contraste, o RoboSpatial poderia testar rigorosamente essas habilidades de raciocínio espacial em tarefas robóticas práticas, primeiro demonstrando o rearranjo de objetos e depois examinando a capacidade dos modelos de generalizar para novos cenários de raciocínio espacial além de seus dados de treinamento originais.

“Isso não significa apenas melhorias nas ações individuais, como pegar e colocar coisas, mas também leva os robôs a interagirem de forma mais natural com os humanos”, disse Song.

Um dos sistemas em que a equipe testou esta estrutura foi um robô Kinova Jaco, um braço auxiliar que ajuda pessoas com deficiência a se conectarem com seu ambiente.

Durante o treinamento, ele foi capaz de responder questões espaciais simples e fechadas, como “A cadeira pode ser colocada na frente da mesa?” ou “A caneca está à esquerda do laptop?” corretamente.

Estes resultados promissores revelam que a normalização do contexto espacial através da melhoria da percepção robótica poderia levar a sistemas de IA mais seguros e confiáveis, disse Song.

Embora ainda existam muitas perguntas sem resposta sobre o desenvolvimento e treinamento de IA, o trabalho conclui que o RoboSpatial tem o potencial de servir como base para aplicações mais amplas em robótica, observando que avanços espaciais mais interessantes provavelmente se ramificarão dele.

“Acho que veremos muitas grandes melhorias e capacidades interessantes para robôs nos próximos cinco a dez anos”, disse Song.

Os coautores incluem Yu Su da Ohio State e Valts Blukis, Jonathan Tremblay, Stephen Tyree e Stan Birchfield da NVIDIA.

Mais informações:
Chan Hee Song et al, RoboSpatial: Ensinando Compreensão Espacial para Modelos de Linguagem de Visão 2D e 3D para Robótica, Conferência IEEE/CVF 2025 sobre Visão Computacional e Reconhecimento de Padrões (CVPR) (2025). DOI: 10.1109/cvpr52734.2025.01470

Fornecido pela Universidade Estadual de Ohio

Citação: Robôs treinados com conjunto de dados espaciais mostram melhor manuseio e reconhecimento de objetos (2025, 13 de novembro) recuperado em 13 de novembro de 2025 em https://techxplore.com/news/2025-11-robots-spatial-dataset-awareness.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



[ad_2]

Deixe uma resposta