
Crédito: Dos autores
Fazer com que os sistemas de Inteligência Artificial percebam os humanos de forma robusta continua sendo um dos desafios mais complexos da visão computacional. Entre os problemas mais complexos está a reconstrução de modelos 3D de mãos humanas, uma tarefa com amplas aplicações em robótica, animação, interação humano-computador e realidade aumentada e virtual. A dificuldade reside na natureza das próprias mãos, muitas vezes obscurecidas ao segurar objetos ou contorcidas em orientações desafiadoras durante tarefas como agarrar.
No Instituto de Robótica da Universidade Carnegie Mellon, projetamos um novo modelo, Hamba, que foi apresentado no 38ª Conferência Anual sobre Sistemas de Processamento de Informação Neural (NeurIPS 2024) em Vancouver. Hamba oferece uma abordagem particularmente interessante para reconstruir mãos 3D a partir de uma única imagem, sem necessidade de conhecimento prévio das especificações da câmera ou do contexto do corpo da pessoa.
O que diferencia o Hamba é o seu afastamento das arquiteturas convencionais baseadas em transformadores. Em vez disso, ele aproveita a modelagem de espaço de estados baseada em Mamba, marcando a primeira vez que tal abordagem foi aplicada à reconstrução articulada de formas 3D. O modelo também refina o processo de digitalização original do Mamba, introduzindo uma varredura bidirecional guiada por gráfico, que utiliza os recursos de aprendizagem de gráficos das Redes Neurais de Gráficos para capturar relações espaciais entre as articulações das mãos com notável precisão.
O Hamba alcança desempenho de última geração em benchmarks como o FreiHAND, com um erro posicional médio por vértice de apenas 5,3 milímetros – uma precisão que ressalta seu potencial para aplicações no mundo real. Além disso, no momento da aceitação do estudo, Hamba ocupava a primeira posição – Rank 1 – em duas tabelas de classificação de competições para reconstrução de mãos em 3D.
Além das suas conquistas técnicas, o Hamba tem implicações mais amplas para a interação humano-computador. Ao permitir que as máquinas percebam e interpretem melhor as mãos humanas, estabelece as bases para futuros sistemas de Inteligência Geral Artificial (AGI) e robôs capazes de compreender as emoções e intenções humanas com maiores nuances.
-
Hamba alcança um desempenho significativo em vários cenários selvagens, incluindo interação manual com objetos ou mãos, diferentes tons de pele, diferentes ângulos, pinturas desafiadoras e animações vívidas. Crédito: Autores
-
Comparações visuais de diferentes fluxos de digitalização. (a) Os métodos de atenção calculam a correlação entre todos os patches, levando a um número muito alto de tokens. (b) As varreduras bidirecionais seguem dois caminhos, resultando em menos complexidade. (c) A varredura bidirecional guiada por grafos (GBS) proposta alcança modelagem de espaço de estados eficaz, aproveitando o aprendizado de grafos com alguns tokens eficazes (ilustrados como varredura por duas cobras: cobras de varredura direta e reversa). Crédito: Autores
-
Resultados Visuais de Hamba para Reconstrução Humana de Corpo Inteiro. Crédito: Autores
Olhando para o futuro, a equipa de investigação planeia abordar as limitações do modelo enquanto explora o seu potencial para reconstruir modelos humanos 3D de corpo inteiro a partir de imagens únicas – outro desafio importante com amplas aplicações em indústrias que vão desde cuidados de saúde até entretenimento. Com a sua combinação única de precisão técnica e utilidade prática, Hamba exemplifica como a inteligência artificial continua a ultrapassar os limites de como as máquinas podem perceber os humanos.
Esta história faz parte do Science X Dialog, onde os pesquisadores podem relatar as descobertas de seus artigos de pesquisa publicados. Visite esta página para obter informações sobre o Science X Dialog e como participar.
Haoye Dong, Aviral Chharia, Wenbo Gou, Francisco Vicente Carrasco, Fernando De la Torre, “Hamba: Reconstrução manual 3D de visão única com Mamba de bi-digitalização guiada por gráfico.” openreview.net/forum?id=pCJ0l1JVUX. Sobre arXiv: DOI: 10.48550/arxiv.2407.09646
arXiv
Aviral Chharia é estudante de graduação na Carnegie Mellon University. Ele recebeu a bolsa de pós-graduação ATK-Nick G. Vlahakis na CMU, a bolsa de estudos de excelência em pesquisa de graduação (SURGE) no IIT Kanpur, Índia, e a bolsa de pesquisa MITACS Globalink na Universidade de British Columbia. Além disso, ele recebeu duas vezes a bolsa Dean’s List durante sua graduação. Seus interesses de pesquisa incluem visão computacional, computação gráfica e aprendizado de máquina.
Citação: Transformando a forma como os sistemas de IA percebem as mãos humanas (2025, 17 de janeiro) recuperado em 17 de janeiro de 2025 em https://techxplore.com/news/2025-01-ai-human.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.