
Crédito: arXiv (2025). DOI: 10.48550/arxiv.2509.03893
Os pesquisadores de Stanford desenvolveram um modelo inovador de visão computacional que reconhece as funções dos objetos no mundo real, permitindo potencialmente que robôs autônomos selecionem e usem ferramentas de forma mais eficaz.
No campo da IA conhecido como visão computacional, os pesquisadores treinaram com sucesso modelos que podem identificar objetos em imagens bidimensionais. É uma habilidade crítica para um futuro de robôs capazes de navegar pelo mundo de forma autônoma. Mas o reconhecimento de objetos é apenas um primeiro passo. A IA também deve compreender a função das partes de um objeto – distinguir o bico de um cabo, ou a lâmina de uma faca de pão daquela de uma faca de manteiga.
Os especialistas em visão computacional chamam essas sobreposições de utilidade de “correspondência funcional”. É um dos desafios mais difíceis da visão computacional. Mas agora, num artigo que será apresentado na Conferência Internacional sobre Visão Computacional (ICCV 2025), os estudiosos de Stanford irão estrear um novo modelo de IA que pode não apenas reconhecer várias partes de um objeto e discernir seus propósitos no mundo real, mas também mapeá-los na granularidade pixel por pixel entre os objetos.
Um futuro robô poderá ser capaz de distinguir, digamos, um cutelo de uma faca de pão ou uma espátula de uma pá e selecionar a ferramenta certa para o trabalho. Potencialmente, sugerem os pesquisadores, um robô poderá um dia transferir as habilidades de usar uma espátula para uma pá – ou de uma garrafa para uma chaleira – para concluir um trabalho com ferramentas diferentes.
“Nosso modelo pode olhar imagens de uma garrafa de vidro e de uma chaleira e reconhecer o bico de cada uma, mas também compreende que o bico é usado para servir”, explica o co-autor Stefan Stojanov, pesquisador de pós-doutorado em Stanford aconselhado pelos autores seniores Jiajun Wu e Daniel Yamins. “Queremos construir um sistema de visão que apoie esse tipo de generalização – fazer analogias, transferir uma habilidade de um objeto para outro para alcançar a mesma função.”
Estabelecer correspondência é a arte de descobrir quais pixels de duas imagens referem-se ao mesmo ponto do mundo, mesmo que as fotografias sejam de ângulos diferentes ou de objetos diferentes. Isso já é bastante difícil se a imagem for do mesmo objeto, mas, como mostra o exemplo da garrafa versus chaleira, o mundo real raramente é tão simples. Os robôs autônomos precisarão generalizar as categorias de objetos e decidir qual objeto usar para uma determinada tarefa.
Um dia, esperam os pesquisadores, um robô em uma cozinha será capaz de selecionar uma chaleira para fazer uma xícara de chá, saber segurá-la pela alça e usar a chaleira para despejar água quente do bico.
Regras de autonomia
A verdadeira correspondência funcional tornaria os robôs muito mais adaptáveis do que são atualmente. Um robô doméstico não precisaria de treinamento em todas as ferramentas à sua disposição, mas poderia raciocinar por analogia para compreender que, embora uma faca de pão e uma faca de manteiga possam cortar, cada uma delas serve a um propósito específico.
Em seu trabalho, dizem os pesquisadores, eles alcançaram uma correspondência funcional “densa”, onde os esforços anteriores foram capazes de alcançar apenas uma correspondência esparsa para definir apenas alguns pontos-chave em cada objeto. O desafio até agora tem sido a escassez de dados, que normalmente tiveram de ser acumulados através de anotações humanas.
“Ao contrário do aprendizado supervisionado tradicional, onde você tem imagens de entrada e rótulos correspondentes escritos por humanos, não é viável anotar humanamente milhares de pixels alinhando-se individualmente em dois objetos diferentes”, diz o co-autor Linan “Frank” Zhao, que recentemente obteve seu mestrado em ciência da computação em Stanford. “Então, pedimos ajuda à IA.”
A equipe conseguiu encontrar uma solução com o que é conhecido como supervisão fraca: usando modelos de linguagem de visão para gerar rótulos para identificar peças funcionais e usando especialistas humanos apenas para controlar a qualidade do pipeline de dados. É uma abordagem de treinamento muito mais eficiente e econômica.
“Algo que teria sido muito difícil de aprender através da aprendizagem supervisionada há alguns anos agora pode ser feito com muito menos esforço humano”, acrescenta Zhao.
No exemplo da chaleira e da garrafa, por exemplo, cada pixel no bico da chaleira está alinhado com um pixel na boca da garrafa, proporcionando um mapeamento funcional denso entre os dois objetos. O novo sistema de visão pode detectar funções na estrutura de objetos díspares – uma fusão valiosa de definição funcional e consistência espacial.
Vendo o futuro
Por enquanto, o sistema foi testado apenas em imagens e não em experimentos do mundo real com robôs, mas a equipe acredita que o modelo é um avanço promissor para robótica e visão computacional. A correspondência funcional densa faz parte de uma tendência mais ampla na IA, na qual os modelos estão mudando do mero reconhecimento de padrões para o raciocínio sobre objetos. Enquanto os modelos anteriores viam apenas padrões de pixels, os sistemas mais recentes podem inferir a intenção.
“Esta é uma lição sobre forma seguindo função”, diz Yunzhi Zhang, estudante de doutorado em ciência da computação em Stanford. “As partes dos objetos que cumprem uma função específica tendem a permanecer consistentes entre os objetos, mesmo que outras partes variem muito.”
Olhando para o futuro, os investigadores querem integrar o seu modelo em agentes incorporados e construir conjuntos de dados mais ricos.
“Se conseguirmos encontrar uma forma de obter correspondências funcionais mais precisas, então este deverá ser um importante passo em frente”, diz Stojanov. “Em última análise, ensinar as máquinas a ver o mundo através das lentes da função poderia mudar a trajetória da visão computacional – tornando-a menos sobre padrões e mais sobre utilidade.”
Aprendizagem fracamente supervisionada de correspondências funcionais densas. densa-funcional-correspondence.github.io/Ativado arXiv: DOI: 10.48550/arxiv.2509.03893
arXiv
Fornecido pela Universidade de Stanford
Citação: O modelo de IA pode aumentar a inteligência do robô por meio do reconhecimento de objetos (2025, 20 de outubro) recuperado em 20 de outubro de 2025 em https://techxplore.com/news/2025-10-ai-boost-robot-intelligence-recognition.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.
[ad_2]