
O sistema baseado em inteligência artificial cria e alinha gradativamente submapas menores da cena, que ele une para reconstruir um mapa 3D completo, como um cubículo de escritório, enquanto estima a posição do robô em tempo real. Crédito: Cortesia dos pesquisadores
Um robô que procura trabalhadores presos em um poço de mina parcialmente desmoronado deve gerar rapidamente um mapa da cena e identificar sua localização dentro dessa cena enquanto navega pelo terreno traiçoeiro.
Os pesquisadores começaram recentemente a construir modelos poderosos de aprendizado de máquina para realizar essa tarefa complexa usando apenas imagens das câmeras a bordo do robô, mas mesmo os melhores modelos só conseguem processar algumas imagens por vez. Num desastre do mundo real, onde cada segundo conta, um robô de busca e salvamento precisaria atravessar rapidamente grandes áreas e processar milhares de imagens para completar a sua missão.
Para superar esse problema, os pesquisadores do MIT basearam-se em ideias de modelos recentes de visão de inteligência artificial e de visão computacional clássica para desenvolver um novo sistema que pode processar um número arbitrário de imagens. Seu sistema gera com precisão mapas 3D de cenas complicadas, como um corredor lotado de um escritório, em questão de segundos.
O sistema baseado em IA cria e alinha gradativamente submapas menores da cena, que ele une para reconstruir um mapa 3D completo enquanto estima a posição do robô em tempo real.
Ao contrário de muitas outras abordagens, sua técnica não requer câmeras calibradas ou um especialista para ajustar uma implementação complexa de sistema. A natureza mais simples da sua abordagem, juntamente com a velocidade e a qualidade das reconstruções 3D, tornaria mais fácil a expansão para aplicações do mundo real.
Além de ajudar os robôs de busca e resgate a navegar, esse método poderia ser usado para criar aplicações de realidade estendida para dispositivos vestíveis, como fones de ouvido VR, ou permitir que robôs industriais encontrem e movam mercadorias rapidamente dentro de um armazém.
“Para que os robôs realizem tarefas cada vez mais complexas, eles precisam de representações de mapas muito mais complexas do mundo ao seu redor. Mas, ao mesmo tempo, não queremos dificultar a implementação desses mapas na prática. Mostramos que é possível gerar uma reconstrução 3D precisa em questão de segundos com uma ferramenta que funciona imediatamente, “diz Dominic Maggio, um estudante de pós-graduação do MIT e principal autor de um artigo sobre este método.
Maggio é acompanhado no artigo pelo pós-doutorado Hyungtae Lim e pelo autor sênior Luca Carlone, professor associado do Departamento de Aeronáutica e Astronáutica do MIT (AeroAstro), investigador principal do Laboratório de Sistemas de Informação e Decisão (LIDS) e diretor do Laboratório MIT SPARK. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural.
As conclusões são publicadas no arXiv servidor de pré-impressão.
Mapeando uma solução
Durante anos, os pesquisadores têm lutado com um elemento essencial da navegação robótica chamado localização e mapeamento simultâneos (SLAM). No SLAM, um robô recria um mapa de seu ambiente enquanto se orienta no espaço.
Os métodos tradicionais de otimização para esta tarefa tendem a falhar em cenas desafiadoras ou exigem que as câmeras integradas do robô sejam calibradas previamente. Para evitar essas armadilhas, os pesquisadores treinam modelos de aprendizado de máquina para aprender essa tarefa a partir dos dados.
Embora sejam mais simples de implementar, mesmo os melhores modelos só podem processar cerca de 60 imagens de câmeras por vez, tornando-os inviáveis para aplicações onde um robô precisa se mover rapidamente por um ambiente variado enquanto processa milhares de imagens.

Reconstrução e estimativas de pose do VGGT-SLAM na cena do escritório a partir de 7 cenas mostrando 8 submapas e de uma cena personalizada mostrando um loop de 55 metros ao redor de um corredor de escritório com 22 submapas. Ambos usam 𝑤 = 16 . Diferentes cores de quadro indicam o submapa associado a cada quadro. Crédito: arXiv (2025). DOI: 10.48550/arxiv.2505.12549
Para resolver este problema, os pesquisadores do MIT desenvolveram um sistema que gera submapas menores da cena em vez do mapa inteiro. Seu método “cola” esses submapas em uma reconstrução 3D geral. O modelo ainda processa apenas algumas imagens por vez, mas o sistema pode recriar cenas maiores com muito mais rapidez, unindo submapas menores.
“Esta parecia uma solução muito simples, mas quando tentei pela primeira vez, fiquei surpreso por não ter funcionado tão bem”, diz Maggio.
Em busca de uma explicação, ele investigou artigos de pesquisa sobre visão computacional das décadas de 1980 e 1990. Por meio dessa análise, Maggio percebeu que erros na forma como os modelos de aprendizado de máquina processam imagens tornavam o alinhamento de submapas um problema mais complexo.
Os métodos tradicionais alinham submapas aplicando rotações e translações até que se alinhem. Mas estes novos modelos podem introduzir alguma ambiguidade nos submapas, o que os torna mais difíceis de alinhar. Por exemplo, um submapa 3D de um lado de uma sala pode ter paredes ligeiramente dobradas ou esticadas. Simplesmente girar e transladar esses submapas deformados para alinhá-los não funciona.
“Precisamos ter certeza de que todos os submapas estão deformados de forma consistente para que possamos alinhá-los bem uns com os outros”, explica Carlone.
Uma abordagem mais flexível
Tomando emprestadas ideias da visão computacional clássica, os pesquisadores desenvolveram uma técnica matemática mais flexível que pode representar todas as deformações nesses submapas. Ao aplicar transformações matemáticas a cada submapa, este método mais flexível pode alinhá-los de uma forma que resolva a ambiguidade.
Com base nas imagens de entrada, o sistema gera uma reconstrução 3D da cena e estimativas das localizações das câmeras, que o robô usaria para se localizar no espaço.
“Depois que Dominic teve a intuição de unir esses dois mundos – abordagens baseadas em aprendizagem e métodos tradicionais de otimização – a implementação foi bastante simples”, diz Carlone. “Criar algo tão eficaz e simples tem potencial para muitas aplicações.
Seu sistema funcionou mais rápido e com menos erros de reconstrução do que outros métodos, sem exigir câmeras especiais ou ferramentas adicionais para processar dados. Os pesquisadores geraram reconstruções 3D quase em tempo real de cenas complexas como o interior da capela do MIT usando apenas vídeos curtos capturados em um telefone celular.
O erro médio nestas reconstruções 3D foi inferior a 5 centímetros.
No futuro, os pesquisadores querem tornar seu método mais confiável para cenas especialmente complicadas e trabalhar para implementá-lo em robôs reais em ambientes desafiadores.
“Saber sobre a geometria tradicional compensa. Se você entender profundamente o que está acontecendo no modelo, poderá obter resultados muito melhores e tornar as coisas muito mais escaláveis”, diz Carlone.
Dominic Maggio et al, VGGT-SLAM: Dense RGB SLAM otimizado no SL(4) Manifold, arXiv (2025). DOI: 10.48550/arxiv.2505.12549
arXiv
Fornecido pelo Instituto de Tecnologia de Massachusetts
Esta história foi republicada como cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e ensino do MIT.
Citação: A técnica de mapeamento flexível pode ajudar robôs de busca e resgate a navegar em ambientes imprevisíveis (2025, 5 de novembro) recuperado em 5 de novembro de 2025 em https://techxplore.com/news/2025-11-flexible-technique-robots-unpredictable-environments.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.
[ad_2]