![O MotionGlot é um modelo que pode gerar trajetórias de movimento que obedecem às instruções do usuário em várias modalidades com diferentes dimensões de ação, como (a) robôs quadrados e (b) seres humanos. Os números (a, b) retratam a referência qualitativa de movyglot contra os modelos adaptados (at) de [1] Sobre o movimento de texto para robô (Seção IV-A.1), perguntas e respostas com tarefas de movimento humano (seção IV-C), respectivamente. O desempenho quantitativo geral entre as tarefas é mostrado em (c). Em (a, b), o aumento da opacidade indica o tempo seguinte. Crédito: Arxiv (2024). Doi: 10.48550/arxiv.2410.16623 Os pesquisadores desenvolvem o modelo de 'tradução' de movimento da IA para controlar diferentes tipos de robôs](https://i0.wp.com/scx1.b-cdn.net/csz/news/800a/2025/researchers-develop-ai-7.jpg?resize=800%2C363&ssl=1)
O MotionGlot é um modelo que pode gerar trajetórias de movimento que obedecem às instruções do usuário em várias modalidades com diferentes dimensões de ação, como (a) robôs quadrados e (b) seres humanos. Os números (a, b) retratam a referência qualitativa de movyglot contra os modelos adaptados (at) de [1] Sobre o movimento de texto para robô (Seção IV-A.1), perguntas e respostas com tarefas de movimento humano (seção IV-C), respectivamente. O desempenho quantitativo geral entre as tarefas é mostrado em (c). Em (a, b), o aumento da opacidade indica o tempo seguinte. Crédito: arxiv (2024). Doi: 10.48550/arxiv.2410.16623
Os pesquisadores da Brown University desenvolveram um modelo de inteligência artificial que pode gerar movimento em robôs e figuras animadas da mesma maneira que os modelos de IA como o ChatGPT geram texto.
Um artigo que descreve este trabalho é publicado no arxiv servidor pré -impressão.
O modelo, chamado MotionGlot, permite que os usuários simplesmente digitem uma ação – “Avance algumas etapas e dê a uma direita” – e o modelo pode gerar representações precisas desse movimento para comandar um robô ou avatar animado.
O principal avanço do modelo, de acordo com os pesquisadores, é sua capacidade de “traduzir” o movimento nos tipos de robôs e figuras, de humanóides a quadrúpedes e além. Isso permite a geração de movimento para uma ampla gama de modalidades robóticas e em todos os tipos de configurações e contextos espaciais.
“Estamos tratando o movimento como simplesmente outro idioma”, disse Sudarshan Harithas, Ph.D. estudante em ciência da computação em Brown, que liderou o trabalho. “E assim como podemos traduzir idiomas-de inglês para chinês, por exemplo-agora podemos traduzir comandos baseados em idiomas para ações correspondentes em várias modalidades. Isso permite um amplo conjunto de novos aplicativos”.
A pesquisa será apresentada ainda este mês na Conferência Internacional de 2025 sobre robótica e automação em Atlanta. O trabalho foi co-autor de Harithas e seu consultor, Srinath Sridhar, professor assistente de ciência da computação em Brown.
Modelos de idiomas grandes como o ChatGPT geram texto através de um processo chamado “Next Token Prediction”, que divide a linguagem em uma série de tokens ou pequenos pedaços, como palavras ou caracteres individuais. Dado um único token ou uma série de tokens, o modelo de idioma faz uma previsão sobre o que pode ser o próximo token.
Esses modelos foram incrivelmente bem -sucedidos na geração de texto, e os pesquisadores começaram a usar abordagens semelhantes para movimento. A idéia é quebrar os componentes do movimento – a posição discreta das pernas durante o processo de caminhada, por exemplo – nos tokens. Uma vez que o movimento é tokenizado, os movimentos fluidos podem ser gerados através da previsão do próximo token.
Um desafio com essa abordagem é que os movimentos para um tipo de corpo podem parecer muito diferentes para outro. Por exemplo, quando uma pessoa está passeando com um cachorro na rua, a pessoa e o cachorro estão fazendo algo chamado “Walking”, mas seus movimentos reais são muito diferentes. Um está na vertical em duas pernas; O outro é de quatro.
Segundo Harithas, o MotionGlot pode traduzir o significado de caminhar de uma personificação para outra. Portanto, um usuário comandando uma figura para “avançar em uma linha reta” obterá a saída de movimento correta, seja para comandando uma figura humanóide ou um cão de robô.
Para treinar seu modelo, os pesquisadores usaram dois conjuntos de dados, cada um contendo horas de dados de movimento anotado. O Quad-Loco apresenta robôs quadrúpedes semelhantes a cães, executando uma variedade de ações, juntamente com o texto rico que descreve esses movimentos. Um conjunto de dados semelhante chamado Ques-CAP contém movimento humano real, juntamente com legendas e anotações detalhadas apropriadas a cada movimento.
Usando esses dados de treinamento, o modelo gera de maneira confiável as ações apropriadas dos avisos de texto, mesmo as ações que nunca viu especificamente antes. Nos testes, o modelo foi capaz de recriar instruções específicas, como “um robô anda para trás, vira à esquerda e caminha para a frente”, além de instruções mais abstratas como “um robô anda alegremente”.
Pode até usar movimento para responder a perguntas. Quando perguntado: “Você pode me mostrar movimento em atividade cardio?” O modelo gera uma pessoa jogging.
“Esses modelos funcionam melhor quando são treinados em lotes e muitos dados”, disse Sridhar. “Se pudéssemos coletar dados em larga escala, o modelo pode ser facilmente ampliado”.
A funcionalidade atual do modelo e a adaptabilidade entre as modalidades criam aplicações promissoras na colaboração humana-robô, jogos e realidade virtual e animação digital e produção de vídeo, dizem os pesquisadores. Eles planejam disponibilizar o modelo e seu código -fonte publicamente para que outros pesquisadores possam usá -lo e expandir -o.
Sudarshan Harithas et al. arxiv (2024). Doi: 10.48550/arxiv.2410.16623
arxiv
Fornecido pela Brown University
Citação: Os pesquisadores desenvolvem o modelo de ‘tradução’ da IA Motion para controlar diferentes tipos de robôs (2025, 8 de maio) recuperado em 8 de maio de 2025 de https://techxplore.com/news/2025-05-ai-motion-kinds-robots.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.