
Figura mostrando o pipeline do método da equipe. A entrada de seu método inclui uma descrição de texto e um mapa ambiental 3D, e a saída consiste em trajetórias suaves que estão em conformidade com a descrição do texto do usuário, que inclui metas, pedidos e relacionamentos espaciais. Crédito: Sun et al.
Avanços recentes no campo da robótica permitiram a automação de várias tarefas do mundo real, variando desde a fabricação ou embalagem de mercadorias em muitas configurações do setor até a execução precisa de procedimentos cirúrgicos minimamente invasivos. Os robôs também podem ser úteis para inspecionar infraestrutura e ambientes perigosos ou difíceis de acessar os seres humanos, como túneis, barragens, oleodutos, ferrovias e usinas.
Apesar de sua promessa para a avaliação segura dos ambientes do mundo real, atualmente, a maioria das inspeções ainda é realizada por agentes humanos. Nos últimos anos, alguns cientistas da computação estão tentando desenvolver modelos computacionais que podem efetivamente planejar as trajetórias que os robôs devem seguir ao inspecionar ambientes específicos e garantir que eles executem ações que lhes permitirão concluir missões desejadas.
Pesquisadores da Purdue University e da LightSpeed Studios introduziram recentemente uma nova técnica computacional sem treinamento para gerar planos de inspeção com base em descrições escritas, que poderiam orientar os movimentos dos robôs enquanto inspecionam ambientes específicos. Sua abordagem proposta, descrita em um artigo publicado no arxiv O servidor pré-impressão depende especificamente de modelos de linguagem de visão (VLMs), que podem processar imagens e textos escritos.
“Nosso artigo foi inspirado nos desafios do mundo real na inspeção automatizada, onde a geração de rotas de inspeção específica para tarefas com eficiência é fundamental para aplicativos como o monitoramento da infraestrutura”, disse ao Xingpeng Sun, primeiro autor do artigo, ao Tech Xplore.
“Embora a maioria das abordagens existentes use modelos de linguagem de visão (VLMs) para explorar ambientes desconhecidos, tomamos uma nova direção, aproveitando os VLMs para navegar em cenas 3D conhecidas para tarefas de planejamento de inspeção de robôs com grão fino usando instruções de linguagem natural”.
O principal objetivo deste estudo recente de Sun e seus colegas era desenvolver um modelo computacional que permitiria a geração simplificada de planos de inspeção adaptados às necessidades ou missões específicas. Além disso, eles queriam que esse modelo funcionasse bem sem a necessidade de mais VLMs de ajuste fino em grandes quantidades de dados, como a maioria dos outros modelos generativos baseados em aprendizado de máquina.

Saídas do nosso método, onde as trajetórias de inspeção são desenhadas em vermelho. Robot Agent Viewpoint Frames de PIOs selecionados estão conectados no lado esquerdo para destacar a conformidade do texto, com as orientações correspondentes marcadas ao longo da trajetória. Mais comparação visual com métodos anteriores são mostrados no vídeo suplementar. Crédito: arxiv (2025). Doi: 10.48550/arxiv.2506.02917
“Propomos um oleoduto sem treinamento que use um VLM pré-treinado (por exemplo, GPT-4O) para interpretar metas de inspeção descritas na linguagem natural, juntamente com imagens relevantes”, explicou o Sol.
“O modelo avalia pontos de vista candidatos com base no alinhamento semântico, e aproveitamos ainda mais o GPT-4O para raciocinar sobre relações espaciais relativas (por exemplo, dentro/fora do alvo) usando imagens de várias visualizações. Uma inspeção 3D otimizada é então gerada para resolver um problema de vendedor de viajantes (TSP) usando a mistura de integração e a programação que é gerada para a relevância de que a releviação de vendedores tritanos), que se relembra, que se relembra, a relevante da relevante e a relevante de relevante.
O TSP é um problema de otimização clássica que visa identificar a rota mais curta possível que conecta vários locais em um mapa, além de considerar restrições e características de um ambiente. Depois de resolver esse problema, o modelo deles refina trajetórias suaves para o robô, realizando uma inspeção e pontos de vista ideais para a câmera para capturar locais de interesse.
“Nossa nova abordagem baseada em VLM sem treinamento para o planejamento de inspeção de robôs traduz com eficiência consultas de linguagem natural em trajetórias de planejamento de inspeção 3D suaves e precisas para robôs”, disse Sun e seu consultor Dr. Aniket Bera. “Nossas descobertas também revelam que os VLMs de última geração, como o GPT-4O, exibem fortes recursos de raciocínio espacial ao interpretar imagens de várias vistas”.
Sun e seus colegas avaliaram seu modelo de geração de planos de inspeção proposto em uma série de testes, onde pediram para criar planos para inspecionar vários ambientes do mundo real, alimentando imagens de TI desses ambientes. Suas descobertas foram muito promissoras, pois o modelo descreveu com sucesso trajetórias suaves e pontos ideais para a conclusão das inspeções desejadas, prevendo relações espaciais com precisão de mais de 90%.
Como parte de seus estudos futuros, os pesquisadores planejam desenvolver e testar sua abordagem ainda mais para melhorar seu desempenho em uma ampla gama de ambientes e cenários. O modelo pode então ser avaliado usando sistemas robóticos reais e eventualmente implantado em configurações do mundo real.
“Nossas próximas etapas incluem estender o método a cenas 3D mais complexas, integrar feedback visual ativo para refinar os planos em tempo real e combinar o pipeline com o controle de robôs para permitir a implantação de inspeção física de circuito fechado”, acrescentou Sun e Bera.
Escrito para você por nosso autor Ingrid Fadelli, editado por Gaby Clark, e verificou e revisado por Robert Egan-este artigo é o resultado de um trabalho humano cuidadoso. Confiamos em leitores como você para manter vivo o jornalismo científico independente. Se este relatório é importante para você, considere uma doação (especialmente mensalmente). Você vai conseguir um sem anúncios conta como um agradecimento.
Xingpeng Sun et al, geração guiada por texto de planos de inspeção personalizados eficientes, arxiv (2025). Doi: 10.48550/arxiv.2506.02917
arxiv
© 2025 Science X Network
Citação: Modelo Vision-Language cria planos para inspeção automatizada de ambientes (2025, 19 de junho) Recuperado em 19 de junho de 2025 de https://techxplore.com/news/2025-06-vision-language-automated-eronments.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.
[ad_2]