
Crédito: arxiv (2025). Doi: 10.48550/arxiv.2505.04831
Chatbots como ChatGPT e Claude sofreram um aumento meteórico no uso nos últimos três anos, porque podem ajudá -lo com uma ampla gama de tarefas. Esteja você escrevendo sonetos shakespearianos, depurando código ou precisa de uma resposta para uma pergunta obscura de curiosidades, os sistemas de inteligência artificial (AI) parecem ter você coberto. A fonte dessa versatilidade? Bilhões ou mesmo trilhões de pontos de dados textuais na Internet.
Esses dados não são suficientes para ensinar um robô a ser um assistente familiar ou de fábrica. Para entender como lidar, empilhar e colocar vários arranjos de objetos em diversos ambientes, os robôs precisam de demonstrações. Você pode pensar nos dados de treinamento de robôs como uma coleção de vídeos de instruções que acompanham os sistemas em cada movimento de uma tarefa.
A coleta dessas demonstrações em robôs reais é demorada e não é perfeitamente repetível; portanto, os engenheiros criaram dados de treinamento, gerando simulações com a IA (que muitas vezes não refletem a física do mundo real) ou tediosamente a criação de cada ambiente digital do zero.
Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) e do Toyota Research Institute podem ter encontrado uma maneira de criar a diversidade e os motivos de treinamento realistas que os robôs precisam. Sua abordagem de “geração de cenas direcionadas” cria cenas digitais de coisas como cozinhas, salas e restaurantes que os engenheiros podem usar para simular muitas interações e cenários do mundo real.
Treinado em mais de 44 milhões de salas 3D, cheias de modelos de objetos como tabelas e placas, a ferramenta coloca ativos existentes em novas cenas e depois refina cada uma em um ambiente fisicamente preciso e realista. O método é publicado no arxiv servidor pré -impressão.
A geração de cena orientável cria esses mundos 3D “direcionando” um modelo de difusão – um sistema de IA que gera um visual do ruído aleatório – em uma cena que você encontraria na vida cotidiana. Os pesquisadores usaram esse sistema generativo para “suportar” um ambiente, preenchendo elementos específicos em toda a cena.
Você pode imaginar uma tela em branco se transformando de repente em uma cozinha espalhada com objetos 3D, que são gradualmente reorganizados em uma cena que imita a física do mundo real. Por exemplo, o sistema garante que um garfo não passe por uma tigela em uma mesa – uma falha comum em gráficos 3D conhecidos como “recorte”, onde os modelos se sobrepõem ou se cruzam.
Como exatamente a geração de cenas direcionadas orienta sua criação para o realismo, no entanto, depende da estratégia que você escolher. Sua principal estratégia é “Monte Carlo Tree Search” (MCTS), onde o modelo cria uma série de cenas alternativas, preenchendo -as de diferentes maneiras para um objetivo específico (como tornar uma cena mais realista ou incluir o maior número possível de itens comestíveis). É usado pelo programa de IA Alphago para vencer oponentes humanos em Go (um jogo semelhante ao xadrez), pois o sistema considera possíveis sequências de movimentos antes de escolher o mais vantajoso.
“Somos os primeiros a aplicar MCTs à geração de cenas, enquadrando a tarefa de geração de cenas como um processo de tomada de decisão seqüencial”, diz o Ph.D. O aluno Nicholas Pfaff, pesquisador da CSAIL e autor principal em um artigo que apresenta o trabalho no Github. “Continuamos construindo cenas parciais para produzir cenas melhores ou mais desejadas ao longo do tempo. Como resultado, o MCTS cria cenas mais complexas do que o modelo de difusão foi treinado”.
Em um experimento particularmente revelador, o MCTS adicionou o número máximo de objetos a uma cena simples de restaurante. Apresentava até 34 itens em uma mesa, incluindo enormes pilhas de pratos dimsum, após treinar em cenas com apenas 17 objetos em média.
A geração de cena direcionada também permite gerar diversos cenários de treinamento por meio de aprendizado de reforço-essencialmente, ensinando um modelo de difusão a cumprir um objetivo por tentativa e erro. Depois de treinar os dados iniciais, seu sistema passa por uma segunda etapa de treinamento, onde você descreve uma recompensa (ou basicamente um resultado desejado com uma pontuação indicando o quão perto você está dessa meta). O modelo aprende automaticamente a criar cenas com pontuações mais altas, geralmente produzindo cenários bem diferentes daqueles em que foi treinado.
Os usuários também podem solicitar o sistema diretamente digitando descrições visuais específicas (como “uma cozinha com quatro maçãs e uma tigela na mesa”). Então, a geração de cenas direcionadas pode dar vida aos seus pedidos com precisão. Por exemplo, a ferramenta seguiu com precisão os avisos dos usuários a taxas de 98% ao criar cenas de prateleiras de despensa e 86% para mesas de café da manhã confusas. Ambas as marcas são pelo menos uma melhoria de 10% em relação a métodos comparáveis como Midifusão e Difusceno, respectivamente.
O sistema também pode concluir cenas específicas por meio de instruções de condução ou luz (como “crie um arranjo de cena diferente usando os mesmos objetos”). Você pode pedir para colocar maçãs em vários pratos em uma mesa de cozinha, por exemplo, ou colocar jogos de tabuleiro e livros em uma prateleira. É essencialmente “preencher o espaço em branco” colocando itens em espaços vazios, mas preservando o resto de uma cena.
Segundo os pesquisadores, a força de seu projeto está em sua capacidade de criar muitas cenas que os roboticistas podem realmente usar. “Uma visão importante de nossas descobertas é que está tudo bem para as cenas que pretendemos para não se parecer exatamente com as cenas que realmente queremos”, diz Pfaff. “Usando nossos métodos de direção, podemos ir além dessa ampla distribuição e amostra de uma ‘melhor’. Em outras palavras, gerando as cenas diversas, realistas e alinhadas a tarefas nas quais realmente queremos treinar nossos robôs”.
Tais cenas vastas se tornaram os motivos de teste, onde poderiam gravar um robô virtual interagindo com itens diferentes. A máquina, com cuidado, os garfos e as facas em um suporte de talheres, por exemplo, e pão reorganizado em pratos em várias configurações 3D. Cada simulação parecia fluida e realista, parecida com os robôs adaptáveis e do mundo real que a geração de cenas direcionadas poderia ajudar a treinar um dia.
Embora o sistema possa ser um caminho encorajador para gerar muitos dados de treinamento diversos para robôs, os pesquisadores dizem que seu trabalho é mais uma prova de conceito. No futuro, eles gostariam de usar a IA generativa para criar objetos e cenas totalmente novos, em vez de usar uma biblioteca fixa de ativos. Eles também planejam incorporar objetos articulados que o robô poderia abrir ou torcer (como armários ou potes cheios de comida) para tornar as cenas ainda mais interativas.
Para tornar seus ambientes virtuais ainda mais realistas, Pfaff e seus colegas podem incorporar objetos do mundo real usando uma biblioteca de objetos e cenas retirados das imagens na Internet e usando seu trabalho anterior no Scalable Real2Sim. Ao expandir o quão diversos e realistas podem ser os motivos de teste de robôs, a equipe espera criar uma comunidade de usuários que criem muitos dados, que podem ser usados como um conjunto de dados enorme para ensinar robôs dexterosos diferentes habilidades.
“Hoje, criar cenas realistas para simulação pode ser um empreendimento bastante desafiador; a geração processual pode produzir prontamente um grande número de cenas, mas elas provavelmente não serão representativas dos ambientes que o robô encontraria no mundo real. Criando manualmente os cenários aplicados no Robots Amazes e caros”, que não se envolveu, que não se envolveu em que os cenários aplicados.
“A geração de cenas direcionadas oferece uma abordagem melhor: treine um modelo generativo em uma grande coleção de cenas pré-existentes e adaptá-la (usando uma estratégia como o aprendizado de reforço) a aplicativos específicos a jusante. Comparado a trabalhos anteriores que aproveitam uma geração de um refúgio e foco em uma geração e foco em uma rede de transmissão e foco em uma fulld e conside a foco.
“A geração de cenas direcionadas com a pesquisa pós-treinamento e tempo de inferência fornece uma estrutura nova e eficiente para automatizar a geração de cenas em escala”, diz o roboticista do Toyota Research Institute Rick Cory Sm ’08, Ph.D. ’10, que também não estava envolvido no artigo. “Além disso, pode gerar cenas ‘nunca antes vistas’ que são consideradas importantes para tarefas a jusante. No futuro, a combinação dessa estrutura com vastos dados da Internet pode desbloquear um marco importante para o treinamento eficiente de robôs para implantação no mundo real”.
Nicholas Pfaff et al. arxiv (2025). Doi: 10.48550/arxiv.2505.04831
arxiv
Fornecido pelo Instituto de Tecnologia de Massachusetts
Citação: Usando IA generativa para diversificar os campos de treinamento virtuais para robôs (2025, 29 de setembro) Recuperado em 29 de setembro de 2025 em https://techxplore.com/news/2025-09-generative-ai-diversify-virtual-grounds.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.
[ad_2]