Uma nova abordagem para melhorar a navegação do robô em ambientes lotados

Uma nova abordagem para melhorar a navegação do robô em ambientes lotados

Uma trajetória de colisão de um robô que foi treinado usando uma estratégia de exploração padrão (esquerda) e uma trajetória bem-sucedida de um robô que foi treinado com recompensas intrínsecas nos mesmos cenários. Crédito: Martinez-Baselga, Riazuelo & Montano

Embora os robôs tenham se tornado cada vez mais avançados nos últimos anos, a maioria deles ainda não consegue navegar de forma confiável em espaços muito lotados, como áreas públicas ou estradas em ambientes urbanos. Para serem implementados em larga escala e nas cidades inteligentes do futuro, no entanto, os robôs precisarão ser capazes de navegar nesses ambientes de maneira confiável e segura, sem colidir com humanos ou objetos próximos.

Pesquisadores da Universidade de Zaragoza e do Instituto de Pesquisa de Engenharia de Aragon, na Espanha, propuseram recentemente uma nova abordagem baseada em aprendizado de máquina que pode melhorar a navegação do robô em ambientes lotados internos e externos. Essa abordagem, apresentada em um artigo pré-publicado no arXiv servidor, envolve o uso de recompensas intrínsecas, que são essencialmente “recompensas” que um agente de IA recebe ao realizar comportamentos que não estão estritamente relacionados à tarefa que está tentando concluir.

“A navegação autônoma do robô é um problema aberto e não resolvido, especialmente em ambientes não estruturados e dinâmicos, onde um robô deve evitar colisões com obstáculos dinâmicos e alcançar a meta”, disse Diego Martinez Baselga, um dos pesquisadores que realizou o estudo, ao Tech Xplore. . “Algoritmos de aprendizado por reforço profundo provaram ter um alto desempenho em termos de taxa de sucesso e tempo para atingir a meta, mas ainda há muito a melhorar”.

O método introduzido por Martinez Baselga e seus colegas usa recompensas intrínsecas, recompensas projetadas para aumentar a motivação de um agente para explorar novos “estados” (ou seja, interações com seu ambiente) ou para reduzir o nível de incerteza em um determinado cenário para que os agentes possam melhor prever as consequências de suas ações. No contexto de seu estudo, os pesquisadores usaram especificamente essas recompensas para encorajar os robôs a visitar áreas desconhecidas em seu ambiente e explorar seu ambiente de maneiras diferentes, para que possam aprender a navegar de maneira mais eficaz ao longo do tempo.

Uma nova abordagem para melhorar a navegação do robô em ambientes lotados

Métricas de treinamento de um algoritmo de última geração em comparação com o mesmo algoritmo com ICM (recompensas intrínsecas) em cima dele. Crédito: Martinez-Baselga, Riazuelo & Montano

“A maioria dos trabalhos de aprendizado por reforço profundo para navegação de multidão do estado da arte se concentra em melhorar as redes e o processamento do que o robô sente”, disse Martinez Baselga. “Minha abordagem estuda como explorar o ambiente durante o treinamento para melhorar o processo de aprendizagem. No treinamento, em vez de tentar ações aleatórias ou ótimas, o robô tenta fazer o que acha que pode aprender mais.”

Martinez Baselga e seus colegas avaliaram o potencial de usar recompensas intrínsecas para lidar com a navegação de robôs em espaços lotados usando duas abordagens distintas. O primeiro deles integra um chamado “módulo de curiosidade intrínseca” (ICM), enquanto o segundo é baseado em uma série de algoritmos conhecidos como codificadores aleatórios para exploração eficiente (RE3).

Os pesquisadores avaliaram esses modelos em uma série de simulações, que foram executadas no simulador CrowdNav. Eles descobriram que ambas as abordagens propostas integrando recompensas intrínsecas superaram os métodos de ponta desenvolvidos anteriormente para navegação de robôs em espaços lotados.

No futuro, este estudo pode encorajar outros roboticistas a usar recompensas intrínsecas ao treinar seus robôs, para melhorar sua capacidade de enfrentar circunstâncias imprevistas e se mover com segurança em ambientes altamente dinâmicos. Além disso, os dois modelos baseados em recompensas intrínsecas testados por Martinez Baselga e seus colegas poderão em breve ser integrados e testados em robôs reais, para validar ainda mais seu potencial.

“Os resultados mostram que aplicando essas estratégias de exploração inteligentes, o robô aprende mais rápido e a política final aprendida é melhor; e que elas podem ser aplicadas em cima dos algoritmos existentes para melhorá-los”, acrescentou Martinez Baselga. “Nos meus próximos estudos, pretendo melhorar o aprendizado por reforço profundo na navegação de robôs para torná-la mais segura e confiável, o que é muito importante para usá-la no mundo real.”

Mais Informações:
Diego Martinez-Baselga et al, Melhorando a navegação do robô em ambientes lotados usando recompensas intrínsecas, arXiv (2023). DOI: 10.48550/arxiv.2302.06554

Informações do jornal:
arXiv

© 2023 Science X Network

Citação: Uma nova abordagem para melhorar a navegação do robô em ambientes lotados (2023, 1º de março) recuperada em 1º de março de 2023 em https://techxplore.com/news/2023-02-approach-robot-crowded-environments.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



[ad_2]

Deixe uma resposta