Modelo baseado em votos desenvolvido para estimativa de pose de pose de mão mais precisa

Os pesquisadores desenvolvem um novo modelo baseado em votos para uma estimativa de pose de pose de mão mais precisa

Resultados qualitativos. Da esquerda para a direita: entrada de imagens RGB e profundidade do conjunto de dados DEXYCB [14]; imagens renderizadas usando as poses de mão e objeto da verdade do solo; imagens renderizadas usando poses e objetos de verdade em terra, previsto por nosso método, método RGB-D [18]e método RGB [20]e método de estimativa de pose de objeto manual [43]. Crédito: Alexandria Engineering Journal (2025). Doi: 10.1016/j.aej.2025.02.017

Muitas aplicações robóticas dependem de braços ou mãos robóticas para lidar com diferentes tipos de objetos. A estimativa da pose desses objetos portáteis é uma tarefa importante, mas desafiadora, na robótica, visão computacional e até mesmo em aplicativos de realidade aumentada (AR). Uma direção promissora é utilizar dados multimodais, como imagens de cor (RGB) e profundidade (d). Com a crescente disponibilidade de sensores 3D, muitas abordagens de aprendizado de máquina surgiram para alavancar essa técnica.

No entanto, as abordagens existentes ainda enfrentam dois desafios principais. Primeiro, eles enfrentam queda de precisão quando as mãos ocluem os objetos mantidos, obscurecendo os recursos críticos necessários para a estimativa de pose. Além disso, as interações de objeto manual introduzem transformações não rígidas, o que complica ainda mais o problema. Isso acontece quando as mãos alteram a forma ou a estrutura do objeto segurado, como ao apertar uma bola macia, distorcendo a forma percebida do objeto.

Segundo, a maioria das técnicas atuais extrai recursos de backbones RGB e RGB-D separados, que são então fundidos no nível do recurso. Como esses dois colegas de fundo lidam com modalidades inerentemente diferentes, essa fusão pode resultar em mudanças de distribuição de representação, o que significa que os recursos aprendidos das imagens RGB podem desalinhar com aqueles extraídos das entradas RGB-D, afetando a estimativa de pose.

Além disso, durante as interações densas e finas entre os dois backbones, causam interrupções no desempenho e limitam os benefícios da incorporação de recursos RGB.

Para resolver essas questões, uma equipe de pesquisa liderada pelo professor associado Phan Xuan Tan, do Inovative Global Program, College of Engineering no Shibaura Institute of Technology, no Japão, juntamente com o Dr. Dinh-Cuong Hoang e outros pesquisadores da Universidade FPT, Vietnã, desenvolveram uma rede inovadora de rede profunda projetada especificamente para estimativa de pose usando imagens RGB-D.

“A principal inovação de nossa estrutura de aprendizado profundo está em um mecanismo de fusão baseado em votação, que integra efetivamente os pontos-chave 2D (RGB) e 3D (profundidade), abordando oclusões induzidas pela mão e as dificuldades de fusão de dados multimodais.

O estudo deles foi disponibilizado online em 17 de fevereiro de 2025 no Alexandria Engineering Journal.

A estrutura de aprendizado profundo proposto compreende quatro componentes: os backbones para extrair características de alta dimensão de imagens 2D e dados de nuvem de pontos 3D, módulos de votação, um novo módulo de fusão baseado em voto e um módulo de estimativa de pose de objeto à mão.

Os pesquisadores desenvolvem um novo modelo baseado em votos para uma estimativa de pose de pose de mão mais precisa

Exemplo de votos gerados projetados em uma imagem 2D. Os pontos verdes indicam previsões precisas alinhadas com os pontos-chave de verdade, enquanto os pontos vermelhos representam previsões que se desviam mais da verdade no solo. Crédito: Alexandria Engineering Journal (2025). Doi: 10.1016/j.aej.2025.02.017

Inicialmente, os backbones 2D e 3D prevêem pontos-chave 2D e 3D das mãos e objetos das imagens RGB-D. Os pontos -chave se referem aos locais significativos nas imagens de entrada que ajudam a descrever a pose das mãos e objetos. Em seguida, os módulos de votação em cada espinha dorsal votaram independentemente em seus respectivos pontos -chave.

Esses votos são então integrados pelo modelo de fusão baseado em votos, que combina dinamicamente os votos 2D e 3D usando a projeção de bairro baseada no raio e os mecanismos de atenção do canal. O primeiro preserva as informações locais, enquanto o último se adapta a diferentes condições de entrada, garantindo robustez e precisão.

Essa fusão baseada em votos alavanca efetivamente os pontos fortes das informações de RGB e profundidade, mitigando o impacto de oclusões e desalinhamento induzidos pela mão, permitindo a estimativa precisa do objeto manual.

O componente final, o módulo de estimativa do objeto com precisão manual, melhora ainda mais a precisão usando um mecanismo de auto-distribuição para capturar as relações complexas entre os pontos de chave das mãos e do objeto. Isso permite que o sistema seja responsável pelas transformações não rígidas causadas por diferentes poses e alças de mãos.

Para testar sua estrutura, os pesquisadores conduziram experimentos em três conjuntos de dados públicos. Os resultados mostraram melhorias significativas na precisão (até 15%) e robustez em relação às abordagens de ponta.

Além disso, experimentos no local demonstraram uma precisão média de 76,8%, com melhorias de desempenho de até 13,9% em comparação com os métodos existentes. A estrutura também atinge tempos de inferência de até 40 milissegundos sem refinamento e 200 milissegundos com refinamento, demonstrando aplicabilidade do mundo real.

“Nossa pesquisa aborda diretamente um gargalo de longa data nas indústrias de robótica e visão computacional-estimativa de objeto precisa nos cenários de interação ocluídos, dinâmicos e complexos de objeto manual”, observa o Dr. Tan.

“Nossa abordagem não é apenas mais precisa, mas também mais simples do que muitas técnicas existentes. Ela tem o potencial de acelerar a implantação de sistemas movidos a IA, como linhas de montagem robótica automatizadas eficientes, robótica humana-assistida e tecnologias imersivas de AR/VR”.

No geral, essa abordagem inovadora representa um passo significativo na robótica, permitindo que os robôs lidem com mais efetivamente objetos complexos e promovendo as tecnologias de AR para modelar interações mais realistas de objeto manual.

Mais informações:
Dinh-Cuong Hoang et al., Fusão multimodal baseada em votação para estimativa de pose de objeto portátil, Alexandria Engineering Journal (2025). Doi: 10.1016/j.aej.2025.02.017

Fornecido pelo Shibaura Institute of Technology

Citação: Modelo baseado em votos desenvolvido para estimativa de pose de pose portátil mais precisa (2025, 1º de maio) Recuperado em 1 de maio de 2025 de https://techxplore.com/news/2025-05-vote-caccury-held-pos.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.



[ad_2]

Deixe uma resposta