Como o Google construiu o aplicativo Gravador do Pixel 4 usando aprendizado de máquina


Veja tudo o que você diz em particular.

O que você precisa saber

  • O Gravador para telefones Pixel utiliza aprendizado de máquina no dispositivo para analisar e categorizar gravações de áudio para arquivamento e pesquisa.
  • O Recorder mantém essas transcrições de áudio fora da Internet usando apenas os processadores embutidos no seu telefone Pixel.
  • As transcrições podem ser pesquisadas posteriormente, digitando as palavras ou frases ditas, e clicar em uma palavra leva você a esse ponto na linha do tempo.

O aprendizado de máquina é uma das coisas mais surpreendentes que nossos smartphones podem fazer, mas é um termo que é frequentemente usado e raramente entendido. Em uma postagem de blog o Google reservou um tempo para explicar detalhadamente como os algoritmos de aprendizado de máquina foram usados ​​e implementados especificamente no novo aplicativo Recorder para telefones Pixel especificamente como o aprendizado de máquina faz com que este seja o melhor aplicativo de gravação que você já usou em sua vida.

A interface simples do gravador é enganosa. No back-end, há uma coleção de códigos projetados para ouvir, entender, transcrever e até classificar a fala e outro áudio ouvido pelo telefone ao gravar com o aplicativo Recorder. Ao gravar o áudio, você notará imediatamente algumas coisas: além do comprimento de onda e da linha do tempo apresentados, você também verá diferentes cores e categorias na tela na guia principal, enquanto as palavras ditas estão localizadas na guia de transcrição e apareça em tempo real.

 Categorias de aplicativos do Google Recorder "title =" Categorias de aplicativos do Google Recorder "class =" imagem com imagem grande e escura "fonte de dados =" Google "> </p data-recalc-dims=

O Recorder é capaz de fornecer essa transcrição em tempo real porque seu código de back-end analisa o áudio recebido e o faz referência cruzada com diferentes tipos de áudio que foi ensinado a entender . Exemplos de categorias de áudio compreendidas incluem música, fala, assobios, latidos de cães e muitos outros sons comuns. Cada categoria de som é representada visualmente usando cores exclusivas que ajudam os usuários a identificar rapidamente o que está sendo ouvido durante a reprodução sem precisar realmente ouvir o áudio. Isso faz uma enorme diferença ao tentar encontrar algo após o término da gravação, pois você não precisará mais se sentar e passar pelo áudio apenas para encontrar o que está procurando.

O gravador verifica a cada 50ms perfis de som, mas, como existem 1000 milissegundos em um segundo, isso significa que a classificação muda constantemente e varia muito dependendo do que é identificado como o áudio principal. Para evitar esse tipo de categorização maluca de áudio, o Google desenvolveu um método de filtragem que descarta os dados indesejados, fazendo uma referência cruzada com amostras mais longas do áudio que está sendo gravado, ajudando assim a classificar melhor os sons sem alternar constantemente sua categoria durante a audição.

 Transcrição do aplicativo Google Recorder "title =" Transcrição do aplicativo Google Recorder "class =" imagem com imagem grande e escura "fonte de dados =" Google "> </p data-recalc-dims=

Durante a gravação, o Recorder identifica as palavras faladas por meio de um algoritmo de aprendizado de máquina no dispositivo. Isso significa que nenhum dado é enviado aos servidores do Google (ou a qualquer outro lugar), pois o processador a bordo pode verificar uma espécie de dicionário no dispositivo para garantir as palavras corretas. As palavras são verificadas em uma árvore de decisão que inclui a filtragem de coisas como palavrões. Esse modelo é tão avançado que é capaz de identificar papéis gramaticais das palavras, ajudando-o a formar frases completas para uso posterior.

Essas palavras são reunidas em uma linha do tempo na estrutura da frase e atribuídas uma posição na linha do tempo. As palavras podem ser visualmente percorridas e pesquisadas após o término da gravação. Os usuários podem até clicar em cada palavra a ser levada para aquele horário específico da gravação, ajudando a entender melhor o contexto e o significado. Ao utilizar essas categorias, além do reconhecimento de palavras, o Google pode até fornecer três tags para uso no final de uma gravação, para ajudar com mais rapidez e precisão o nome da gravação.

Como usar o aplicativo Recorder do Pixel 4

Obtenha mais pixels 4

Google Pixel 4 e 4 XL


  
                  
    
                    
    
                    
    
                    
    
                    
    
      

  
  

Pixel 4 A partir de US $ 799 na Amazon
Pixel 4 XL A partir de US $ 899 na Amazon





Source link



Os comentários estão desativados.