
O Higashinaka Lab está desenvolvendo sistemas de diálogos Ai-humanos projetados para trabalhar ao lado de operadores humanos. Como parte de sua pesquisa, um robô guia foi implantado no Nifrel Aquarium de Osaka para responder às perguntas dos visitantes sobre a vida marinha. Os operadores humanos podem intervir para fornecer ajuda com perguntas complexas. Crédito: Higashinaka Lab, Universidade de Nagoya. Tomado no Nifrel Aquarium, Osaka
Como você desenvolve um sistema de IA que imita perfeitamente a maneira como os humanos falam? Pesquisadores da Universidade de Nagoya, no Japão, deram um passo significativo para conseguir isso. Eles criaram o J-Moshi, o primeiro sistema de IA disponível publicamente projetado especificamente para padrões de conversação japoneses.
J-Moshi captura o fluxo natural da conversa japonesa, que geralmente tem respostas verbais curtas conhecidas como “Aizuchi” que os falantes japoneses usam durante a conversa para mostrar que estão ouvindo ativamente e engajados. Respostas como “Sou Desu ne” (isso mesmo) e “Naruhodo” (vejo) são usadas com mais frequência do que respostas semelhantes em inglês.
A IA tradicional tem dificuldade em usar Aizuchi porque não pode falar e ouvir ao mesmo tempo. Essa capacidade é especialmente importante para a caixa de diálogo japonesa de IA japonesa que soa natural. Consequentemente, o J-Moshi se tornou muito popular entre os falantes japoneses que reconhecem e apreciam seus padrões de conversação naturais.

O Prof. Higashinaka (à direita) e sua equipe estão colaborando no desenvolvimento de robôs humanóides que combinam fala, gestos e movimento para se comunicar naturalmente com as pessoas. Crédito: Higashinaka Lab, Universidade de Nagoya
Construindo um modelo japonês de moshi
A equipe de desenvolvimento, liderada por pesquisadores do Higashinaka Laboratory da Escola de Pós-Graduação de Informática, construiu J-Moshi, adaptando o modelo Moshi em inglês criado pelo Laboratório sem fins lucrativos Kyutai. O processo levou cerca de quatro meses e envolveu o treinamento do sistema usando vários conjuntos de dados de fala japoneses. A pesquisa é publicada no arxiv servidor pré -impressão.
O maior conjunto de dados foi obtido da J-Chat, o maior conjunto de dados de diálogo japonês disponível ao público criado e lançado pela Universidade de Tóquio. Ele contém aproximadamente 67.000 horas de áudio de podcasts e YouTube. Além disso, a equipe usou conjuntos de dados de diálogo menores, mas de alta qualidade, alguns coletados no laboratório e outros que remontam de 20 a 30 anos. Para aumentar seus dados de treinamento, os pesquisadores também converteram conversas por bate-papo escrito em discursos artificiais com programas de texto em fala que desenvolveram para esse fim.
-

Ph.D. O aluno Atsumoto Ohashi, o principal desenvolvedor da J-Moshi, demonstra como o sistema de IA imita os padrões de conversação japoneses naturais. Ele tem trabalhado na otimização de sistemas de diálogo orientados a tarefas para seu doutorado. Crédito: Merle Naidoo, Universidade de Nagoya
-

Ph.D. O aluno Yuki Zenimoto se envolve com um sistema de diálogo que provoca questões que provoca informações de assistência médica do usuário por meio de conversas casuais. Crédito: Merle Naidoo, Universidade de Nagoya
Em janeiro de 2024, o J-Moshi ganhou atenção significativa quando vídeos de demonstração se tornaram virais nas mídias sociais. Além de sua novidade técnica, ela tem possíveis aplicações práticas no aprendizado de idiomas. Por exemplo, ajudar os falantes não nativos a praticar e a entender os padrões naturais de conversação japonesa.
A equipe de pesquisa também está explorando aplicativos comerciais em call centers, configurações de assistência médica e atendimento ao cliente. Eles observam que a adaptação do sistema a campos ou indústrias especializadas é um desafio devido à disponibilidade limitada de dados de fala japoneses em comparação com os recursos disponíveis para o inglês.
O líder da equipe de pesquisa, o professor Ryuichiro Higashinaka, traz uma perspectiva única para a pesquisa acadêmica de IA, tendo passado 19 anos como pesquisador corporativo na NTT Corporation antes de ingressar na Universidade de Nagoya há cinco anos.
Durante seu mandato no setor, ele trabalhou em sistemas de diálogo e agentes de voz do consumidor, incluindo um projeto para realizar uma função de resposta à pergunta do Shabette Concier, um serviço de agente de voz da NTT Docomo. Para buscar ainda mais pesquisas sobre padrões de comunicação humana, ele criou seu próprio laboratório na Escola de Informática da Universidade de Nagoya em 2020.
Seu laboratório de 20 membros agora enfrenta desafios que preenchem a pesquisa teórica e as aplicações práticas, desde a compreensão do tempo de conversação em japonês até a implantação de guias de IA em espaços públicos como aquários.
“Tecnologia como a J-Moshi pode ser aplicada a sistemas que trabalham com operadores humanos. Por exemplo, nossos robôs guia no Nifrel Aquarium em Osaka podem lidar com interações rotineiras de forma independente e facilmente conectada aos operadores humanos para perguntas complexas ou quando é necessária assistência especializada”, disse o professor Higashinaka. “Nosso trabalho faz parte de um projeto de lua de gabinete nacional que visa melhorar a qualidade do serviço por meio de sistemas avançados de colaboração AI-humana”.

Ph.D. O aluno Sanae Yamashita (à esquerda) trabalha com técnicas que resumem as conversas para ajudar os operadores humanos a intervir quando os sistemas de diálogo de IA precisam de assistência. O pesquisador AO Guo (à direita) se concentra em tornar os robôs de orientação móvel mais fáceis de usar usando fala, gestos e movimento. Crédito: Merle Naidoo, Universidade de Nagoya
Oportunidades e desafios para interações humanas-robôs
O Prof. Higashinaka explicou os desafios únicos que a pesquisa japonesa da IA enfrenta: “O Japão sofre de uma escassez de recursos da fala, limitando a capacidade dos pesquisadores de treinar sistemas de diálogo de IA. As preocupações com a privacidade também precisam ser consideradas”.
Essa escassez de dados forçou soluções criativas, como o uso de programas de computador para separar vozes mistas nas gravações de podcast em faixas individuais de alto -falantes necessárias para o treinamento.
Atualmente, os sistemas de diálogo têm dificuldade em situações sociais complexas, especialmente quando os relacionamentos interpessoais e os ambientes físicos precisam ser considerados. Os obstáculos visuais, como máscaras ou chapéus, também podem prejudicar seu desempenho à medida que são cobertas pistas visuais importantes, como expressões faciais. Os testes no aquário Nifrel de Osaka mostraram que, às vezes, a IA não pode lidar com perguntas do usuário e precisa que os operadores humanos intervenham e assumam a conversa.
Enquanto o J-Moshi representa uma conquista significativa na captura de padrões de conversação japoneses naturais com a fala sobreposta e interjeições de Aizuchi, essas limitações significam que atualmente precisa de sistemas de backup humano para a maioria das aplicações práticas. Os pesquisadores estão trabalhando para aprimorar esses sistemas de backup humano para mitigar esses desafios. Esses incluem métodos para resumo de diálogo e sistemas de detecção de quebra de diálogo que alertam os operadores sobre possíveis problemas para que possam responder rapidamente.
A pesquisa mais ampla do laboratório se estende além do J-Moshi e inclui vários métodos para interação humana-robô. Em colaboração com colegas que trabalham em robôs humanóides realistas, eles estão desenvolvendo sistemas de robôs que coordenam a fala, os gestos e o movimento da comunicação natural.
Esses robôs, incluindo aqueles fabricados pela Unitree Robotics, representam os últimos avanços na IA em forma física, onde os sistemas de diálogo devem navegar não apenas nuances de conversação, mas também presença física e consciência espacial. A equipe mostra regularmente seu trabalho durante os dias da University Open Campus, onde o público pode experimentar como os sistemas de diálogo de IA estão evoluindo em primeira mão.
Seu artigo sobre J-Moshi foi aceito para publicação em Interspeech, a maior conferência internacional no campo da tecnologia e pesquisa da fala. O professor Higashinaka e sua equipe estão ansiosos para apresentar sua pesquisa J-Moshi em Roterdã, na Holanda, em agosto de 2025.
“Em um futuro próximo, testemunharemos o surgimento de sistemas capazes de colaborar perfeitamente com os seres humanos por meio de fala e gestos naturais. Aspiro a criar as tecnologias fundamentais que serão essenciais para uma sociedade tão transformadora”, disse o professor Higashinaka.
Atsumoto ohashi et al, em direção a um sistema de diálogo falado em fuzil-duplex japonês, arxiv (2025). Doi: 10.48550/arxiv.2506.02979
Ouça o Audio of J-Moshi aqui: https://nu-dialogue.github.io/j-moshi/
A base de código usada para treinamento J-Moshi está disponível aqui: https://github.com/nu-dialogue/moshi-finetune
arxiv
Fornecido pela Universidade de Nagoya
Citação: O primeiro sistema de diálogo japonês de IA japonês disponível pode falar e ouvir simultaneamente (2025, 15 de julho) recuperado em 15 de julho de 2025 de https://techxplore.com/news/2025-07-japenese-ai-dialogue-simultanyly.html
Este documento está sujeito a direitos autorais. Além de qualquer negociação justa para fins de estudo ou pesquisa particular, nenhuma parte pode ser reproduzida sem a permissão por escrito. O conteúdo é fornecido apenas para fins de informação.
[ad_2]