
Ao estudar demonstrações e aprender com o feedback humano e suas próprias tentativas do mundo real, um novo protocolo de treinamento movido a IA desenvolvido na UC Berkeley ensina robôs a executar tarefas complicadas, como montar uma correia dentada com uma taxa de sucesso de 100%. Crédito: Universidade da Califórnia – Berkeley Robotics AI e Laboratório de Aprendizagem
Na UC Berkeley, os pesquisadores da IA robótica de Sergey Levine e o aprendizado de aprendizagem olharam para uma mesa onde uma torre de 39 blocos de Jenga estava perfeitamente empilhada. Depois, um robô branco e preto, seu único membro dobrou como uma girafa curvada, em direção à torre, brandindo um chicote de couro preto. Através do que poderia ter parecido a um espectador casual como um milagre da física, o chicote atingiu precisamente o local certo para enviar um único bloco voando da pilha, enquanto o resto da torre permaneceu estruturalmente sólido.
Essa tarefa, conhecida como “Jenga Chicoteing”, é um hobby perseguido por pessoas com destreza e reflexos para fazê -lo. Agora, ele foi dominado por robôs, graças a um romance, método de treinamento movido a IA criado por Levine e outros membros da equipe.
O novo sistema, chamado de amostra humano no circuito eficiente de reforço robótico (HIL-Serl), é descrito em um estudo que aparece em 20 de agosto na revista Robótica científica.
Ao estudar demonstrações e aprender com o feedback humano e suas próprias tentativas do mundo real, esse protocolo de treinamento ensina robôs a executar tarefas complicadas, como o Jenga Chicoteando com uma taxa de sucesso de 100%. Além disso, os robôs são ensinados a uma velocidade impressionante, permitindo que eles aprendam dentro de uma a duas horas como montar perfeitamente uma placa -mãe de computador, construir uma prateleira e muito mais.
A primeira vez que o robô conquistou o desafio de chicote de Jenga, “isso realmente me chocou”, disse o primeiro autor do estudo Jianlan Luo, pesquisador de pós -doutorado da UC Berkeley. “A tarefa Jenga é muito difícil para a maioria dos humanos. Eu tentei com um chicote na mão; tive uma taxa de sucesso de 0%”.
Nos últimos anos, o campo de aprendizagem de robôs procurou quebrar o desafio de como ensinar atividades de máquinas que são imprevisíveis ou complicadas, em oposição a uma única ação, como pegar repetidamente um objeto de um local específico em uma correia transportadora. Para resolver esse dilema, o Labor de Levine se concentrou no que é chamado de “aprendizado de reforço”. No aprendizado de reforço, um robô tenta uma tarefa no mundo real e, usando o feedback das câmeras, aprende com seus erros para eventualmente dominar essa habilidade.
O novo estudo acrescentou intervenção humana para acelerar esse processo. Com um mouse especial que controla o robô, um humano pode corrigir o curso do robô, e essas correções podem ser incorporadas ao proverbial Bank de memória do robô. Usando a aprendizagem de reforço, o robô analisa a soma de todas as suas tentativas – assistida e não assistida, bem -sucedida e malsucedida – para executar melhor sua tarefa. Luo disse que um humano precisava intervir cada vez menos à medida que o robô aprendeu com a experiência.
“Eu precisava cuidar do robô para talvez os primeiros 30% ou algo assim, e depois gradualmente eu poderia realmente prestar menos atenção”, disse ele.

Ao estudar demonstrações e aprender com o feedback humano e suas próprias tentativas do mundo real, um novo protocolo de treinamento movido a IA desenvolvido na UC Berkeley ensina robôs a executar tarefas complicadas como o Jenga chicoteando com uma taxa de sucesso de 100%. Crédito: Universidade da Califórnia – Berkeley Robotics AI e Laboratório de Aprendizagem
O laboratório colocou seu sistema robótico através de uma manopla de tarefas complicadas além do chicote de Jenga. O robô virou um ovo em uma panela; passou por um objeto de um braço para outro; e montou uma placa -mãe, painel de carros e correia dentada. Os pesquisadores selecionaram esses desafios porque foram variados e, nas palavras de Luo, representaram “todo tipo de incerteza ao executar tarefas robóticas no complexo mundo real”.
Os pesquisadores também testaram a adaptabilidade dos robôs encenando contratempos. Eles forçariam uma garra a abrir para que ele soltasse um objeto ou movesse uma placa -mãe enquanto o robô tentava instalar um microchip, treinando -o para reagir a uma situação de mudança que poderia encontrar fora de um ambiente de laboratório.
No final do treinamento, o robô poderia executar essas tarefas corretamente 100% do tempo. Os pesquisadores compararam seus resultados a um método comum de “copiar meu comportamento”, conhecido como clonagem comportamental que foi treinada na mesma quantidade de dados de demonstração; Seu novo sistema tornou os robôs mais rápido e preciso.
Essas métricas são cruciais, disse Luo, porque a barra de competência de robô é muito alta. Consumidores e industriais regulares não querem comprar um robô inconsistente. Luo enfatizou que, em particular, processos de fabricação “feitos sob encomenda”, como os usados frequentemente para eletrônicos, automóveis e peças aeroespaciais, podem se beneficiar de robôs que podem aprender de maneira confiável e adaptável uma série de tarefas.
Um próximo passo, disse Luo, seria pré-treinar o sistema com recursos básicos de manipulação de objetos, eliminando a necessidade de aprender aqueles do zero e, em vez disso, progredir diretamente para adquirir habilidades mais complexas. O laboratório também optou por fazer sua pesquisa de código aberto para que outros pesquisadores pudessem usar e desenvolvê -lo.
“Um objetivo essencial deste projeto é tornar a tecnologia tão acessível e fácil de usar como um iPhone”, disse Luo. “Acredito firmemente que quanto mais pessoas podem usá -lo, maior o impacto que podemos causar”.
Autores adicionais do estudo incluem Charles Xu e Jeffrey Wu da UC Berkeley.
Jianlan Luo et al. Robótica científica (2025). Doi: 10.1126/scirobotics.ads5033
Fornecido pela Universidade da Califórnia – Berkeley
Citação: Com feedback humano, os robôs orientados pela IA aprendem tarefas melhor e mais rápidas (2025, 20 de agosto) recuperadas em 20 de agosto de 2025 em https://techxplore.com/news/2025-08-human-feedback-ai-driven-robots.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.
[ad_2]