Um agente conversacional incorporado que combina grandes modelos de linguagem e assistência específica de domínio

Um agente conversacional incorporado que combina grandes modelos de linguagem e assistência específica de domínio

O sistema FurChat. Crédito: Cherakara et al.

Grandes modelos de linguagem (LLMs) são técnicas avançadas de aprendizagem profunda que podem interagir com humanos em tempo real e responder a solicitações sobre uma ampla variedade de tópicos. Esses modelos ganharam muita popularidade após o lançamento do ChatGPT, um modelo criado pela OpenAI que surpreendeu muitos usuários por sua capacidade de gerar respostas semelhantes às humanas para suas perguntas.

Embora os LLMs estejam se tornando cada vez mais difundidos, a maioria deles são genéricos, em vez de ajustados para fornecer respostas sobre tópicos específicos. Os chatbots e robôs introduzidos em alguns aeroportos, shoppings e espaços públicos, por outro lado, são frequentemente baseados em outros tipos de modelos de processamento de linguagem natural (PNL).

Pesquisadores da Universidade Heriot-Watt e da Alana AI criaram recentemente o FurChat, um novo agente de conversação incorporado baseado em LLMs projetado para oferecer informações em ambientes específicos. Este agente, apresentado num artigo pré-publicado em arXivpode ter conversas faladas envolventes com os usuários por meio do robô Furhat, um busto robótico humanóide.

“Queríamos investigar vários aspectos da IA ​​incorporada para interação natural com humanos”, disse Oliver Lemon, um dos pesquisadores que realizou o estudo, ao Tech Xplore. “Em particular, estávamos interessados ​​em combinar o tipo de conversa geral de ‘domínio aberto’ que você pode ter com LLMs como o ChatGPT com fontes de informação mais úteis e específicas, neste caso, por exemplo, informações sobre um edifício e uma organização (ou seja, o UK National Robotarium). Também construímos um sistema semelhante para informações sobre um hospital (o hospital Broca em Paris para o projeto SPRING), usando um robô ARI e em francês.”






Vídeo demonstrando a funcionalidade do sistema.

O principal objetivo do trabalho recente da equipe foi aplicar LLMs em conversas específicas do contexto. Além disso, Lemon e seus colegas esperavam testar a capacidade desses modelos de gerar expressões faciais apropriadas alinhadas com o que um robô ou avatar está comunicando ou respondendo em um determinado tempo.

“FurChat combina um modelo de linguagem grande (LLM), como ChatGPT ou uma das muitas alternativas de código aberto (por exemplo, LLAMA) com um robô animado habilitado para fala”, disse Lemon. “É o primeiro sistema que conhecemos que combina LLMs para conversas gerais e fontes de informação específicas (por exemplo, documentos sobre uma organização) com animações robóticas expressivas automáticas.”

As respostas dadas pelo agente conversacional incorporado da equipe e suas expressões faciais são geradas pelo modelo GPT 3.5. Estes são então transmitidos em termos falados e fisicamente pelo robô Furhat.

  • Um agente conversacional incorporado que combina grandes modelos de linguagem e assistência específica de domínio

    O sistema FurChat. Crédito: Cherakara et al.

  • Um agente conversacional incorporado que combina grandes modelos de linguagem e assistência específica de domínio

    Usuário interagindo com o sistema FurChat. Crédito: Cherakara et al.

Para avaliar o desempenho do FurChat, os pesquisadores realizaram um teste com usuários humanos, pedindo-lhes que compartilhassem seu feedback após interagirem com o agente. Eles instalaram especificamente o robô no UK National Robotarium, na Escócia, onde interagiu com os visitantes e ofereceu-lhes informações sobre a instalação, seus esforços de pesquisa, eventos futuros e muito mais.

“Estamos explorando como usar e desenvolver ainda mais os recentes avanços de IA em LLMs para criar sistemas mais úteis, utilizáveis ​​e atraentes para colaboração entre humanos, robôs e sistemas de IA em geral”, explicou Lemon. “Esses sistemas precisam ser factualmente precisos, por exemplo, explicando como a informação que apresentam é proveniente de documentos ou imagens específicas.

“Estamos trabalhando nesses recursos para garantir sistemas de IA e robôs mais confiáveis ​​e explicáveis. Ao mesmo tempo, estamos trabalhando em sistemas que combinam visão e linguagem para agentes incorporados que podem trabalhar em conjunto com humanos. Isso terá importância crescente no próximos anos, à medida que mais sistemas para colaboração humano-IA forem desenvolvidos.”

Um agente conversacional incorporado que combina grandes modelos de linguagem e assistência específica de domínio

Usuário interagindo com o sistema FurChat. Crédito: Cherakara et al.

No experimento inicial da equipe no mundo real, o sistema FurChat pareceu ser eficaz na comunicação com os usuários de maneira suave e informativa. No futuro, este estudo poderá encorajar a introdução de agentes de IA incorporados semelhantes baseados em LLM em espaços públicos ou em museus, festivais e outros locais.

“Estamos agora trabalhando para estender os agentes conversacionais incorporados às chamadas conversas ‘multipartidárias’, onde a interação envolve vários seres humanos, por exemplo, ao visitar um hospital com um parente”, acrescentou Lemon. “Depois, planejamos estender seu uso a cenários onde equipes de robôs e humanos colaboram para resolver problemas do mundo real”.

Mais Informações:
Neeraj Cherakara et al, FurChat: um agente conversacional incorporado usando LLMs, combinando diálogo de domínio aberto e fechado com expressões faciais, arXiv (2023). DOI: 10.48550/arxiv.2308.15214

Informações do diário:
arXiv

© 2023 Science X Network

Citação: Um agente conversacional incorporado que mescla grandes modelos de linguagem e assistência específica de domínio (2023, 13 de setembro) recuperado em 13 de setembro de 2023 em https://techxplore.com/news/2023-09-emposed-conversational-agent-merges-large. HTML

Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa privada, nenhuma parte pode ser reproduzida sem permissão por escrito. O conteúdo é fornecido apenas para fins informativos.



[ad_2]

Deixe uma resposta