O robô de IA da OpenAI aprendeu a resolver o cubo de Rubik com uma mão

[ad_1]

  

A organização de pesquisa em inteligência artificial OpenAI alcançou um novo marco em sua busca para criar robôs de auto-aprendizado de uso geral. A divisão de robótica do grupo diz que o Dactyl, sua mão robótica humanóide desenvolvida pela primeira vez no ano passado aprendeu a resolver o cubo de Rubik com uma mão. A OpenAI vê o feito como um salto em frente, tanto pela destreza dos apêndices robóticos quanto pelo seu próprio software de IA, que permite ao Dactyl aprender novas tarefas usando simulações virtuais antes de apresentar um desafio físico real a ser superado.

Em um vídeo de demonstração que mostra o novo talento de Dactyl, podemos ver a mão robótica abrindo caminho em direção a um cubo completo resolvido com manobras desajeitadas, mas precisas. Demora muitos minutos, mas Dactyl é capaz de resolver o quebra-cabeça. É um tanto perturbador ver em ação, mesmo que apenas porque os movimentos pareçam visivelmente menos fluidos que os humanos e especialmente desarticulados quando comparados à velocidade ofuscante e à destreza bruta em exibição quando um velocista humano resolve o cubo em questão de segundos .

Mas, para a OpenAI, a conquista de Dactyl aproxima-se de um objetivo muito procurado para as indústrias mais amplas de IA e robótica: um robô que pode aprender a executar uma variedade de tarefas do mundo real, sem ter que treinar por meses a anos de tempo do mundo real e sem precisar ser especificamente programado.

  


    
      
        

      
    
    
  
  
    
      
      
         Imagem: OpenAI
      
    

  

"Muitos robôs podem resolver os cubos de Rubik muito rapidamente. A diferença importante entre o que eles fizeram lá e o que estamos fazendo aqui é que esses robôs são construídos de propósito ", diz Peter Welinder, cientista pesquisador e líder em robótica da OpenAI. "Obviamente, não há como você usar o mesmo robô ou a mesma abordagem para executar outra tarefa. A equipe de robótica da OpenAI tem ambições muito diferentes. Estamos tentando construir um robô de uso geral. Semelhante à maneira como os seres humanos e como nossas mãos humanas podem fazer muitas coisas, não apenas uma tarefa específica, estamos tentando construir algo que é muito mais geral em seu escopo. ”

Welinder está fazendo referência a uma série de robôs nos últimos anos que levaram a solução do cubo de Rubik muito além das limitações das mãos e mentes humanas. Em 2016, a fabricante de semicondutores Infineon desenvolveu um robô especificamente para resolver o cubo de Rubik em velocidades sobre-humanas, e o bot conseguiu fazê-lo em menos de um segundo. Isso quebrou o recorde mundial de menos de cinco segundos na época. Dois anos depois, uma máquina desenvolvida pelo MIT resolveu um cubo em menos de 0,4 segundos . No final de 2018, um canal japonês do YouTube chamado Human Controller até desenvolveu seu próprio cubo de Rubik de auto-solução usando um núcleo impresso em 3D conectado a servo motores programáveis.

Em outras palavras, um robô criado para uma tarefa específica e programado para executá-la da maneira mais eficiente possível pode tipicamente melhorar o ser humano, e a solução do cubo de Rubik é algo que o software domina há muito tempo. Portanto, desenvolver um robô para resolver o cubo, mesmo humanóide, não é tão notável por si só, e menos ainda na velocidade lenta que Dactyl opera.

Mas o robô Dactyl da OpenAI e o software que o alimenta são muito diferentes em design e propósito do que uma máquina dedicada de solução de cubos. Como Welinder diz, o trabalho de robótica em andamento da OpenAI não visa alcançar resultados superiores em tarefas limitadas, pois isso exige apenas que você desenvolva um robô melhor e o programe de acordo. Isso pode ser feito sem a inteligência artificial moderna.

Em vez disso, o Dactyl é desenvolvido desde o início como uma mão robótica de auto-aprendizado que aborda novas tarefas como um humano. É treinado usando um software que tenta, de maneira rudimentar no momento, replicar os milhões de anos de evolução que nos ajudam a aprender a usar nossas mãos instintivamente quando crianças. Isso poderia um dia, espera a OpenAI, ajudar a humanidade a desenvolver os tipos de robôs humanóides que conhecemos apenas da ficção científica, robôs que podem operar com segurança na sociedade sem nos colocar em risco e executar uma ampla variedade de tarefas em ambientes tão caóticos quanto as ruas da cidade e o chão de fábrica .

  


    
      
        

    
  

  
    
      
      
         Foto: OpenAI
      
    

  

Para aprender como resolver um cubo de Rubik com uma mão, a OpenAI não programou explicitamente o Dactyl para resolver o brinquedo; o software livre na internet pode fazer isso por você. Ele também optou por não programar movimentos individuais para a mão executar, pois queria discernir esses movimentos por conta própria. Em vez disso, a equipe de robótica deu ao software subjacente da mão o objetivo final de resolver um cubo embaralhado e usou a IA moderna – especificamente uma marca de aprendizado profundo baseado em incentivos chamado aprendizado por reforço – para ajudá-lo no caminho de descobrir sozinho. A mesma abordagem para o treinamento de agentes de IA é como a OpenAI desenvolveu seu Dota 2 de classe mundial bot .

Mas, até recentemente, era muito mais fácil treinar um agente de IA para fazer algo virtualmente – jogar um jogo de computador, por exemplo – do que treiná-lo para executar uma tarefa do mundo real. Isso ocorre porque o software de treinamento para fazer algo no mundo virtual pode ser acelerado, para que a IA possa passar o equivalente a dezenas de milhares de anos treinando em apenas alguns meses do tempo real, graças a milhares de CPUs de ponta e ultra GPUs poderosas trabalhando em paralelo.

Não é possível executar o mesmo nível de treinamento executando uma tarefa física com um robô físico. É por isso que a OpenAI está tentando ser pioneira em novos métodos de treinamento em robótica usando ambientes simulados no lugar do mundo real, algo que a indústria de robótica mal experimentou. Dessa forma, o software pode praticar extensivamente em um ritmo acelerado em muitos computadores diferentes simultaneamente, com a esperança de reter esse conhecimento quando começar a controlar um robô real.

Devido à limitação do treinamento e às preocupações óbvias de segurança, os robôs usados ​​comercialmente hoje não utilizam a IA e são programados com instruções muito específicas. "A maneira como foi abordada no passado é que você usa algoritmos muito especializados para resolver tarefas, nas quais você tem um modelo preciso do robô e do ambiente em que está operando", diz Welinder. "Para um robô de fábrica, você tem modelos muito precisos deles e conhece exatamente o ambiente em que está trabalhando. Você sabe exatamente como será a parte em particular. ”

É também por isso que os robôs atuais são muito menos versáteis que os humanos. Requer grande quantidade de tempo, esforço e dinheiro para reprogramar um robô que monta, digamos, uma parte específica de um automóvel ou componente de computador para fazer outra coisa. Apresente um robô que não tenha sido treinado adequadamente com uma tarefa simples que envolva qualquer nível de destreza humana ou processamento visual e que falharia miseravelmente. Com as técnicas modernas de IA, no entanto, os robôs podem ser modelados como seres humanos, para que possam usar o mesmo entendimento intuitivo do mundo para fazer tudo, desde abrir portas até fritar um ovo. Pelo menos, esse é o sonho.

Ainda estamos a décadas de distância desse nível de sofisticação, e os saltos que a comunidade de IA deu no lado do software – como carros autônomos, tradução automática e reconhecimento de imagens – não foram exatamente traduzidos para os robôs da próxima geração . No momento, a OpenAI está apenas tentando imitar a complexidade de uma parte do corpo humano e fazer com que esse análogo robótico opere de forma mais natural.

É por isso que Dactyl é uma mão robótica de 24 articulações modelada após uma mão humana, em vez das garras robóticas de garra ou pinça que você vê nas fábricas. E para o software que capacita Dactyl a aprender a utilizar todas essas articulações da maneira que um ser humano faria, a OpenAI passou por milhares de anos de treinamento em simulação antes de tentar resolver o cubo físico.

  


    
      
        

    
  

  
    
      
      
         Imagem: OpenAI
      
    

  

"Se você está treinando coisas no robô do mundo real, obviamente o que quer que esteja aprendendo está trabalhando no que realmente deseja implantar seu algoritmo. Dessa forma, é muito mais simples. Hoje, porém, os algoritmos precisam de muitos dados. Para treinar um robô do mundo real, para fazer qualquer coisa complexa, você precisa de muitos anos de experiência ”, diz Welinder. "Mesmo para um humano, leva alguns anos, e os humanos têm milhões de anos de evolução para ter a capacidade de aprender a operar uma mão."

Em uma simulação, no entanto, Welinder diz que o treinamento pode ser acelerado, assim como o jogo e outras tarefas populares como benchmarks de IA. “Isso leva cerca de milhares de anos para treinar o algoritmo. Mas isso leva apenas alguns dias, pois podemos paralelizar o treinamento. Você também não precisa se preocupar com os robôs quebrando ou machucando alguém enquanto treina esses algoritmos ", acrescenta. No entanto, os pesquisadores enfrentaram problemas consideráveis ​​no passado, tentando obter treinamento virtual para trabalhar em robôs físicos. A OpenAI diz que está entre as primeiras organizações a realmente ver progresso nesse sentido.

Quando recebeu um cubo real, Dactyl pôs em prática seu treinamento e o resolveu por conta própria, e o fez sob uma variedade de condições para as quais nunca havia sido explicitamente treinado. Isso inclui resolver o cubo com uma mão com uma luva, com dois dedos colados, e enquanto os membros da OpenAI continuamente interferiam nele, cutucando-o com outros objetos e regando-o com bolhas e pedaços de papel parecido com confete.

"Descobrimos que em todas essas perturbações, o robô ainda era capaz de girar com sucesso o cubo de Rubik. Mas isso não passou por isso no treinamento ”, diz Matthias Plappert, líder da equipe robótica da OpenAI, de Welinder. "A robustez que encontramos quando tentamos isso no robô físico foi surpreendente para nós."

É por isso que a OpenAI vê a habilidade recém-adquirida de Dactyl como igualmente importante para o avanço do hardware robótico e o treinamento em IA. Mesmo os robôs mais avançados do mundo, como os robôs humanóides e caninos desenvolvidos pelo líder da indústria Boston Dynamics, não podem operar de forma autônoma, e exigem uma programação específica de tarefas e intervenção humana frequente para realizar até ações básicas.

A OpenAI diz que o Dactyl é um passo pequeno, mas vital, para o tipo de robô que pode um dia executar tarefas manuais ou domésticas e até trabalhar ao lado de humanos, em vez de em ambientes fechados, sem qualquer programação explícita que governe suas ações.

Nessa visão para o futuro, a capacidade dos robôs de aprender novas tarefas e se adaptarem a ambientes em mudança será tanto sobre a flexibilidade da IA ​​quanto sobre a robustez da máquina física. "Esses métodos estão realmente começando a demonstrar que essas são as soluções para lidar com todas as complicações inerentes e a confusão do mundo físico em que vivemos", diz Plappert.

[ad_2]

Source link



Os comentários estão desativados.