Os modelos de linguagem da visão obtêm habilidades de raciocínio espacial por meio de mundos artificiais e descrições de cenas 3D

Uma estrutura para aumentar a perspectiva visual e o raciocínio espacial de modelos de linguagem de visão

À esquerda, o ambiente simulado contendo um cubóide colocado em um plano e observado por uma câmera, colocado diretamente acima do objeto a distâncias variadas. À direita, um exemplo dos elementos do conjunto de dados usados ​​para treinar o modelo: uma imagem e um prompt de texto como entrada, com a relação espacial entre o cubóide e a câmera representada como uma matriz de transformação como a saída desejada. Crédito: Gioele Migno.

Os modelos de linguagem de visão (VLMs) são técnicas computacionais avançadas projetadas para processar imagens e textos escritos, fazendo previsões de acordo. Entre outras coisas, esses modelos podem ser usados ​​para melhorar as capacidades dos robôs, ajudando -os a interpretar com precisão o ambiente e interagir com os usuários humanos com mais eficiência.

Uma equipe de pesquisadores do Instituto de Tecnologia Italiana (IIT) e da Universidade de Aberdeen introduziram recentemente uma nova estrutura conceitual e um conjunto de dados contendo dados gerados computacionalmente, que podem ser usados ​​para treinar VLMs em tarefas de raciocínio espacial. Sua estrutura e conjunto de dados, apresentados em um artigo publicado no arxiv O servidor pré-impressão pode contribuir para o desenvolvimento de sistemas incorporados de inteligência artificial (AI) que estão melhor equipados para navegar em ambientes do mundo real e se comunicar com os seres humanos.

Esta pesquisa marca o resultado do projeto Fair* e decorre de uma recente colaboração entre a cognição social na linha de pesquisa de interação humana-robot (S4HRI) no IIT, guiada pelo Prof. Agnieszka Wykowska e pelo Laboratório de Predição de Ação da Universidade de Aberdeen, que é liderado pelo Prof. Patric Bach.

“Nosso grupo de pesquisa investiga como os mecanismos de cognição social humana são envolvidos durante as interações com agentes artificiais”, disse Davide de Tommaso, tecnólogo do IIT e co-senior autor do artigo, à Tech Xplore. “Nossos estudos anteriores indicaram que, sob condições específicas, as pessoas atribuem intencionalidade aos robôs e interagem com eles de maneiras que se assemelham intimamente às interações com outros parceiros sociais.

“Portanto, entender esses mecanismos, particularmente o papel das pistas não verbais, como olhar, gestos e comportamentos espaciais, é crucial para o desenvolvimento de modelos computacionais eficazes de cognição social em robôs”.

Tomada em perspectiva visual (VPT), ​​a capacidade de entender como é uma cena visual do ponto de vista de outra pessoa, pode ser muito vantajoso para os sistemas robóticos, pois pode permitir que eles entendam as instruções que recebem, cooperam com outros agentes e concluam com êxito missões. De Tommaso e seus colegas têm tentado recentemente reproduzir essa capacidade -chave nos robôs, além de garantir que os robôs possam aplicá -lo em uma ampla gama de contextos.

“Nosso objetivo principal era permitir que os robôs raciocinam efetivamente sobre o que outros agentes (humanos ou artificiais) podem ou não perceber de seus pontos de vista em ambientes compartilhados”, disse De Tommaso. “Por exemplo, os robôs devem avaliar com precisão se o texto é legível do ponto de vista de outra pessoa, se um objeto estiver oculto por trás de um obstáculo ou se um objeto é adequadamente orientado para que um humano compreenda ou aponte para ele.

“Apesar dos modelos fundamentais atuais, muitas vezes sem recursos sofisticados de raciocínio espacial, acreditamos firmemente que aproveitar modelos de grande idioma para o entendimento de cenas, juntamente com representações de cenas sintéticas, possui promessas significativas para modelar recursos de VPT do tipo humano em agentes artificiais incorporados”.

Para melhorar os recursos do VPT do VLMS, os pesquisadores compilaram um conjunto de dados que poderia apoiar seu treinamento em tarefas de raciocínio espacial. Usando o Omniverse Replicator da Nvidia, uma plataforma para gerar dados sintéticos, eles criaram um novo “mundo artificial”, que consistia essencialmente em uma cena simples capturando um cubo, visto de diferentes ângulos e distâncias.

Eles então tiraram imagens 3D capturadas do cubo neste mundo sintético, adicionando uma descrição da linguagem natural para cada uma delas, juntamente com uma matriz de transformação 4×4, uma estrutura matemática que representa a posição e a orientação do cubo. O conjunto de dados foi publicado on -line e pode ser usado por outras equipes para treinar seus VLMs.

“Cada imagem capturada pela câmera virtual vem com um prompt de texto contendo as dimensões do cubo e uma matriz de transformação precisa que codifica a relação espacial entre a câmera e o objeto, o tipo de robôs de dados usa para planejar movimentos e interagir com o mundo”, explicou Joel Currie, o primeiro autor do artigo, que é um Phd. estudante da Universidade de Aberdeen e pesquisador do Instituto Italiano de Tecnologia.

“Como o ambiente é sintético, controlamos todos os aspectos e geramos dezenas de milhares de combinações de matriz de imagem rapidamente (algo quase impossível com as configurações do mundo real). É uma maneira de ensinar robôs a não apenas ver, mas para entender o espaço como um ser físico”.

Até agora, a estrutura introduzida pelos pesquisadores é apenas teórica, mas em breve poderá abrir novas possibilidades para o treinamento de VLMs reais. Os próprios pesquisadores poderão em breve avaliar seu potencial treinando um modelo usando o conjunto de dados que eles compilam ou dados similares gerados sinteticamente.

“O que fizemos é fundamentalmente conceitual”, disse Currie. “Estamos propondo uma nova maneira de a IA aprender espaço, não apenas do seu próprio ponto de vista, mas da de outra pessoa. Em vez de geometria codificada, tratamos a perspectiva visual de tomar como algo que o modelo pode aprender usando a visão e a linguagem. É um passo para incorporar a cognição – robôs que não vêem apenas o mundo, mas podem imaginar a aparência.

O trabalho recente de De Tommaso, Currie, Migno e seus colegas poderiam inspirar a geração de outros conjuntos de dados sintéticos semelhantes para o treinamento de VLMs em tarefas de raciocínio espacial. Esses esforços podem contribuir coletivamente para a melhoria de robôs humanóides e outros agentes incorporados de IA, potencialmente facilitando sua implantação em ambientes do mundo real.

“Nosso próximo passo será tornar o ambiente virtual o mais realista possível, aproximando a distância entre uma cena do espaço simulado e o mundo real”, acrescentou Gioele Migno, que se formou em inteligência artificial e robótica da Universidade de Roma de Sapienza e recentemente ingressou na unidade de pesquisa da S4HRI no IIT como uma pesquisas.

“Esta etapa é crucial para transferir o conhecimento adquirido pelo modelo em simulação para o mundo real e possibilitar que um robô incorporado explore o raciocínio espacial. Depois que isso é alcançado, estamos interessados ​​em investigar como esses recursos podem tornar as interações com os seres humanos mais eficazes em cenários em que eles compartilham um cenário espacial do cenário”.

Escrito para você por nosso autor Ingrid Fadelli, editado por Lisa Lock, e verificou e revisado por Robert Egan-este artigo é o resultado de um trabalho humano cuidadoso. Confiamos em leitores como você para manter vivo o jornalismo científico independente. Se este relatório é importante para você, considere uma doação (especialmente mensalmente). Você vai conseguir um sem anúncios conta como um agradecimento.

Mais informações:
Joel Currie et al, em direção à cognição incorporada em robôs por meio de mundos sintéticos espacialmente fundamentados, arxiv (2025). Doi: 10.48550/arxiv.2505.14366

Informações do diário:
arxiv

© 2025 Science X Network

Citação: Os modelos de linguagem de visão obtêm habilidades de raciocínio espacial por meio de mundos artificiais e descrições de cenas 3D (2025, 13 de junho) recuperadas em 13 de junho de 2025 em https://techxplore.com/news/2025-06-vision-language- gain-spatial-skills.html

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.



[ad_2]

Deixe uma resposta