Uma estrutura de aprendizado por reforço de relaxamento por imitação para locomoção de robôs de quatro patas

Uma estrutura de aprendizado por reforço de relaxamento por imitação para locomoção de robôs de quatro patas

Resposta ao estresse de um robô bípede após derrapagem no terreno. Crédito: Jin et al

Para que os robôs com pernas explorem seus arredores com eficácia e concluam missões, eles precisam ser capazes de se mover de forma rápida e confiável. Nos últimos anos, roboticistas e cientistas da computação criaram vários modelos para a locomoção de robôs com pernas, muitos dos quais são treinados usando métodos de aprendizado por reforço.

A locomoção efetiva de robôs com pernas envolve a resolução de vários problemas diferentes. Isso inclui garantir que os robôs mantenham o equilíbrio, que se movam com mais eficiência, que alternem periodicamente os movimentos das pernas para produzir uma marcha específica e que possam seguir comandos.

Embora algumas abordagens para a locomoção de robôs com pernas tenham alcançado resultados promissores, muitas são incapazes de lidar consistentemente com todos esses problemas. Quando o fazem, às vezes lutam para atingir altas velocidades, permitindo apenas que os robôs se movam lentamente.

Pesquisadores da Universidade de Zhejiang e do Centro Científico e Tecnológico Global de ZJU-Hangzhou criaram recentemente uma nova estrutura que pode permitir que robôs de quatro patas se movam com eficiência e em alta velocidade. Este quadro, introduzido em Inteligência da Máquina da Naturezaé baseado em um método de treinamento conhecido como aprendizado por reforço de relaxamento por imitação (IRRL).

“Permitir que os robôs alcancem a biomobilidade é o objetivo de minha pesquisa dos sonhos”, disse Jin Yongbin, um dos pesquisadores que realizou o estudo, ao TechXplore. “Em sua implementação, nossa ideia foi inspirada na comunicação interdisciplinar entre computação gráfica, ciência dos materiais e mecânica. O hiperplano característico é inspirado no diagrama de fase ternário na ciência dos materiais.”

Uma estrutura de aprendizado por reforço de relaxamento por imitação para locomoção de robôs de quatro patas

Estatísticas da velocidade máxima e massa corporal de mamíferos e robôs quadrúpedes em escala logarítmica. Crédito: Jin et al

Em contraste com os métodos convencionais de aprendizado por reforço, a abordagem proposta por Yongbin e seus colegas otimiza os diferentes objetivos da locomoção de robôs com pernas em etapas. Além disso, ao avaliar a robustez de seu sistema, os pesquisadores introduziram a noção de “estabilidade estocástica”, uma medida que eles esperavam que refletisse melhor o desempenho de um robô em ambientes do mundo real (ou seja, em oposição a simulações).

“Tentamos entender as características das diferentes funções de sub-recompensa e, em seguida, reformular a função de recompensa final para evitar a influência do extremo local”, explicou Yongbin. “De outra perspectiva, a eficácia desse método está no processo de aprendizado do fácil ao difícil. A imitação de movimento fornece uma boa estimativa inicial para a solução ideal.”

Os pesquisadores avaliaram sua abordagem em uma série de testes, tanto em simulações de um robô de quatro patas quanto executando sua análise de estabilidade estocástica. Eles descobriram que isso permitia que o robô de quatro patas, que se assemelha ao renomado robô Mini-Cheetah criado pelo MIT, corresse a uma velocidade de 5,0 m/s.-1sem perder o equilíbrio.

“Acho que há duas contribuições principais deste trabalho”, disse Yongbin. “O primeiro é o método de hiperplano proposto, que nos ajuda a explorar a natureza da recompensa no espaço de parâmetros de ultra-alta dimensão, orientando assim o design de recompensa para o controlador baseado em RL. O segundo é o método de avaliação de estabilidade quantitativa que tente preencher a lacuna do sim para o real.”

A estrutura introduzida por essa equipe de pesquisadores poderá em breve ser implementada e avaliada em diferentes configurações do mundo real, usando vários robôs com pernas físicas. Em última análise, poderia ajudar a melhorar a locomoção de robôs com pernas existentes e recém-criados, permitindo que eles se movam mais rápido, concluam missões em menos tempo e alcancem locais de destino com mais eficiência.

“Até agora, a métrica de estabilidade baseada em entropia é um método a posteriori”, acrescentou Yongbin. “No futuro, introduziremos indicadores de estabilidade diretamente no processo de aprendizado do controlador e nos esforçaremos para alcançar a agilidade das criaturas naturais”.

Mais Informações:
Yongbin Jin et al, Locomoção quadrúpede de alta velocidade por aprendizado de reforço de imitação e relaxamento, Inteligência da Máquina da Natureza (2022). DOI: 10.1038/s42256-022-00576-3.

© 2023 Science X Network

Citação: Uma estrutura de aprendizado por reforço de relaxamento por imitação para locomoção de robôs de quatro patas (2023, 18 de janeiro) recuperada em 18 de janeiro de 2023 em https://techxplore.com/news/2023-01-imitation-relaxation-framework-four-legged-robot -locomotion.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



[ad_2]

Deixe uma resposta