IA gera dados para ajudar os agentes incorporados linguagem de terra para o mundo 3D

IA gera dados para ajudar os agentes incorporados linguagem de terra para o mundo 3D

Um novo conjunto de dados em texto 3D, 3D-Grand, aproveita a IA generativa para criar salas sintéticas que são anotadas automaticamente com estruturas 3D. As 40.087 cenas domésticas do conjunto de dados podem ajudar a treinar IA incorporada, como robôs domésticos, conectar a linguagem aos espaços 3D. Crédito: Joyce Chai

Um novo conjunto de dados de texto 3D densamente anotado chamado 3D-neta pode ajudar a treinar IA incorporada, como robôs domésticos, para conectar a linguagem aos espaços 3D. O estudo, liderado pelos pesquisadores da Universidade de Michigan, foi apresentado na conferência de visão computacional e reconhecimento de padrões (CVPR) em Nashville, Tennessee, em 15 de junho, e publicado no The the arxiv servidor pré -impressão.

Quando colocado à prova em relação aos conjuntos de dados 3D anteriores, o modelo treinado na neta 3D atingiu 38% de precisão de aterramento, superando o melhor modelo anterior em 7,7%. A neta em 3D também reduziu drasticamente as alucinações para apenas 6,67% em relação à taxa anterior de 48%.

O conjunto de dados contribui para a próxima geração de robôs domésticos que excederão em muito os aspiradores robóticos que atualmente preenchem casas. Antes que possamos comandar um robô para “pegar o livro ao lado da lâmpada na mesa de cabeceira e trazê -lo para mim”, o robô deve ser treinado para entender a que idioma se refere no espaço.

“Grandes modelos de linguagem multimodal são treinados principalmente em texto com imagens 2D, mas vivemos em um mundo 3D. Se queremos que um robô interaja conosco, ele deve entender os termos e perspectivas espaciais, interpretar orientações de objetos no espaço e linguagem de solo no rico ambiente 3D”, disse Joyce Chai, professor de ciência da computação e engenharia da UM e do autor sênior do autor do estudo.

Embora os modelos de texto ou IA baseados em imagem possam extrair uma quantidade enorme de informações da Internet, os dados 3D são escassos. É ainda mais difícil encontrar dados 3D com dados de texto fundamentados – o que significa que palavras específicas como “sofá” estão vinculadas a coordenadas 3D que limitam o sofá real.

Como todos os LLMs, o 3D-LLMS tem o melhor desempenho quando treinado em grandes conjuntos de dados. No entanto, a construção de um grande conjunto de dados por salas de imagem com câmeras teria muito tempo e caro, pois os anotadores devem especificar manualmente objetos e seus relacionamentos espaciais e vincular palavras aos objetos correspondentes.

A equipe de pesquisa adotou uma nova abordagem, aproveitando a IA generativa para criar salas sintéticas que são anotadas automaticamente com estruturas 3D. O conjunto de dados em 3D resultante inclui 40.087 cenas domésticas combinadas com 6,2 milhões de descrições densamente fundamentadas da sala.

“Uma grande vantagem dos dados sintéticos é que os rótulos vêm de graça porque você já sabe onde está o sofá, o que facilita o processo de curadoria”, disse Jianing Jed Yang, estudante de doutorado em ciência da computação e engenharia da UM e principal autor do estudo.

Depois de gerar os dados 3D sintéticos, um pipeline de IA usou os modelos de visão primeiro para descrever a cor, a forma e o material de cada objeto. A partir daqui, um modelo somente de texto gerou descrições de cenas inteiras enquanto usava gráficos de cenas-mapas estruturados de como os objetos se relacionam-para garantir que cada frase substantiva seja fundamentada em objetos 3D específicos.

Uma etapa final de controle de qualidade usou um filtro de alucinação para garantir que cada objeto gerado no texto tenha um objeto associado na cena 3D.

Avaliadores humanos verificou 10.200 pares de antação de quartos para garantir a confiabilidade, avaliando se havia alguma imprecisão em sentenças ou objetos gerados pela IA. As anotações sintéticas tiveram uma baixa taxa de erro de cerca de 5% a 8%, o que é comparável às anotações humanas profissionais.

“Dado o tamanho do conjunto de dados, a anotação baseada em LLM reduz o custo e o tempo em uma ordem de magnitude em comparação à anotação humana, criando 6,2 milhões de anotações em apenas dois dias. É amplamente reconhecido que a coleta de dados de alta qualidade em escala é essencial para a construção de modelos de IA eficazes”, disse Yang.

Para colocar o novo conjunto de dados à prova, a equipe de pesquisa treinou um modelo na grand 3D e o comparou com três modelos de linha de base (3D-LLM, LEO e 3D-VISTA). O scanRefer de referência avaliou a precisão do aterramento-quão muito se sobrepõe à caixa delimitadora prevista se sobrepõe ao limite do objeto verdadeiro-enquanto um benchmark recém-introduzido chamado 3D-Pope avaliou as alucinações de objetos.

O modelo treinado em 3D atingiu uma precisão de aterramento de 38% com apenas uma taxa de alucinação de 6,67%, excedendo em muito os modelos generativos concorrentes. Enquanto a neta em 3D contribui para a comunidade de modelagem 3D-LLM, os testes nos robôs serão a próxima etapa.

“Será emocionante ver como a neta em 3D ajuda os robôs a entender melhor o espaço e a enfrentar diferentes perspectivas espaciais, melhorando potencialmente como eles se comunicam e colaboram com os seres humanos”, disse Chai.

Mais informações:
Jianing Yang et al., 3D-Grand: Um conjunto de dados de um milhão de escala para 3D-LLMs com melhor aterramento e menos alucinação, arxiv (2024). Doi: 10.48550/arxiv.2406.05132

Informações do diário:
arxiv

Fornecido pela Faculdade de Engenharia da Universidade de Michigan

Citação: A IA gera dados para ajudar os agentes incorporados linguagem de aterramento no 3D World (2025, 16 de junho) recuperado em 16 de junho de 2025 em https://techxplore.com/news/2025-06-ai-eneates-embodied-agents-ground.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.



Deixe uma resposta