
Configuração experimental: braço Torobo (Tokyo Robotic Inc.) com 7 graus de liberdade manipulando blocos cúbicos de 5 cm de cores diferentes na área de trabalho. Crédito: Robótica Científica (2025). DOI: 10.1126/scirobotics.adp0751
Nós, humanos, somos excelentes em generalização. Se você ensinou uma criança a identificar a cor vermelha mostrando-lhe uma bola vermelha, um caminhão vermelho e uma rosa vermelha, ela provavelmente identificará corretamente a cor de um tomate, mesmo que seja a primeira vez que vê um.
Um marco importante na aprendizagem da generalização é a composicionalidade: a capacidade de compor e decompor um todo em partes reutilizáveis, como a vermelhidão de um objeto. Como obtemos essa capacidade é uma questão fundamental na neurociência do desenvolvimento – e na pesquisa em IA.
As primeiras redes neurais, que mais tarde evoluíram para os grandes modelos de linguagem (LLMs) que revolucionaram a nossa sociedade, foram desenvolvidas para estudar como a informação é processada nos nossos cérebros. Ironicamente, à medida que estes modelos se tornaram mais sofisticados, os caminhos de processamento de informação internos também se tornaram cada vez mais opacos, com alguns modelos hoje tendo trilhões de parâmetros ajustáveis.
Mas agora, membros da Unidade de Pesquisa em Neurorobótica Cognitiva do Instituto de Ciência e Tecnologia de Okinawa (OIST) criaram um modelo de inteligência incorporada com uma arquitetura inovadora que permite aos pesquisadores acessar os vários estados internos da rede neural, e que parece aprender como generalizar da mesma maneira que as crianças fazem.
Suas descobertas foram publicadas em Robótica Científica.
“Este artigo demonstra um possível mecanismo para as redes neurais alcançarem a composicionalidade”, diz a Dra. Prasanna Vijayaraghavan, primeira autora do estudo. “Nosso modelo consegue isso não por inferência baseada em vastos conjuntos de dados, mas pela combinação de linguagem com visão, propriocepção, memória de trabalho e atenção – assim como fazem as crianças pequenas.”
Perfeitamente imperfeito
Os LLMs, baseados em uma arquitetura de rede transformadora, aprendem a relação estatística entre palavras que aparecem em frases a partir de grandes quantidades de dados de texto. Essencialmente, eles têm acesso a cada palavra em todos os contextos concebíveis e, a partir desse entendimento, prevêem a resposta mais provável para uma determinada solicitação.
Por outro lado, o novo modelo é baseado em uma estrutura PV-RNN (rede neural recorrente variacional inspirada na codificação preditiva), treinada por meio de interações incorporadas que integram três entradas simultâneas relacionadas a diferentes sentidos: visão, com um vídeo de um braço de robô movendo blocos coloridos ; propriocepção, a sensação de movimento dos nossos membros, com os ângulos articulares do braço do robô enquanto ele se move; e uma instrução de idioma como “coloque vermelho no azul”.
O modelo é então encarregado de gerar uma previsão visual e os ângulos articulares correspondentes em resposta a uma instrução de idioma, ou uma instrução de idioma em resposta a uma entrada sensorial.
O sistema é inspirado no Princípio da Energia Livre, que sugere que nosso cérebro prevê continuamente informações sensoriais com base em experiências passadas e toma medidas para minimizar a diferença entre previsão e observação. Esta diferença, quantificada como “energia livre”, é uma medida de incerteza e, ao minimizar a energia livre, o nosso cérebro mantém um estado estável.
Juntamente com a memória de trabalho e a capacidade de atenção limitadas, a IA reflete as restrições cognitivas humanas, forçando-a a processar informações e atualizar a sua previsão em sequência, em vez de tudo de uma vez, como fazem os LLMs.
Ao estudar o fluxo de informações dentro do modelo, os pesquisadores podem obter insights sobre como ele integra as diversas entradas para gerar suas ações simuladas.
É graças a esta arquitetura modular que os pesquisadores aprenderam mais sobre como os bebês podem desenvolver a composicionalidade.
Como relata o Dr. ela interagiu com vários objetos vermelhos de maneiras diferentes, em vez de apenas empurrar um caminhão vermelho em diversas ocasiões.”
Abrindo a caixa preta
“Nosso modelo requer um conjunto de treinamento significativamente menor e muito menos poder de computação para atingir a composicionalidade. Ele comete mais erros do que os LLMs, mas comete erros semelhantes aos humanos cometem”, diz o Dr.
É exatamente esta característica que torna o modelo tão útil para cientistas cognitivos, bem como para investigadores de IA que tentam mapear os processos de tomada de decisão dos seus modelos.
Embora sirva um propósito diferente dos LLMs atualmente em uso e, portanto, não possa ser comparado de forma significativa em termos de eficácia, o PV-RNN mostra, no entanto, como as redes neurais podem ser organizadas para oferecer maior conhecimento sobre seus caminhos de processamento de informações: sua arquitetura relativamente superficial permite aos pesquisadores para visualizar o estado latente da rede – a representação interna em evolução das informações retidas do passado e usadas nas previsões do presente.
O modelo também aborda o problema da Pobreza de Estímulo, que postula que o input linguístico disponível para as crianças é insuficiente para explicar a sua rápida aquisição da linguagem. Apesar de ter um conjunto de dados muito limitado, especialmente em comparação com os LLMs, o modelo ainda atinge a composicionalidade, sugerindo que fundamentar a linguagem no comportamento pode ser um catalisador importante para a impressionante capacidade de aprendizagem de línguas das crianças.
Esta aprendizagem incorporada poderia, além disso, mostrar o caminho para uma IA mais segura e mais ética no futuro, tanto melhorando a transparência como sendo capaz de compreender melhor os efeitos das suas ações. Aprender a palavra “sofrimento” de uma perspectiva puramente linguística, como fazem os LLMs, teria menos peso emocional do que para um PV-RNN, que aprende o significado através de experiências incorporadas juntamente com a linguagem.
“Continuamos nosso trabalho para aprimorar as capacidades deste modelo e estamos usando-o para explorar vários domínios da neurociência do desenvolvimento. Estamos entusiasmados para ver quais insights futuros sobre o desenvolvimento cognitivo e os processos de aprendizagem de línguas podemos descobrir”, disse o professor Jun Tani, chefe da unidade de pesquisa e autor sênior do artigo.
Como adquirimos a inteligência para criar a nossa sociedade é uma das grandes questões da ciência. Embora o PV-RNN não tenha respondido, ele abre novos caminhos de pesquisa sobre como a informação é processada em nosso cérebro.
“Ao observar como o modelo aprende a combinar linguagem e ação”, resume o Dr. Vijayaraghavan, “obtemos insights sobre os processos fundamentais que fundamentam a cognição humana. Ele já nos ensinou muito sobre a composicionalidade na aquisição da linguagem e mostra potencial para modelos mais eficientes, transparentes e seguros.”
Prasanna Vijayaraghavan et al, Desenvolvimento da composicionalidade através da aprendizagem interativa da linguagem e ação de robôs, Robótica Científica (2025). DOI: 10.1126/scirobotics.adp0751
Fornecido pelo Instituto de Ciência e Tecnologia de Okinawa
Citação: IA incorporada revela como robôs e crianças aprendem a entender (2025, 23 de janeiro) recuperado em 23 de janeiro de 2025 em https://techxplore.com/news/2025-01-emcorporado-ai-reveals-robots-toddlers.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.