Google Recorder on Pixel phone

Google spiega la magia dell’intelligenza artificiale dietro le etichette degli altoparlanti di Pixel Recorder

Google Recorder sul telefono Pixel

Rosa /

  • Google ha pubblicato un post sul blog che descrive in dettaglio cosa è stato necessario per creare la nuova funzione Speaker Labels sui pixel basati su Tensor.
  • Google ha anche rivelato che sta lavorando per rendere la funzione meno assetata di energia.

Google ha recentemente aggiunto le etichette degli altoparlanti all’utilissima app Pixel Recorder. La funzione riconosce automaticamente diversi oratori in una registrazione e assegna loro etichette univoche nella trascrizione. Gli utenti possono quindi assegnare i nomi dei relatori a tali etichette. Sembra così semplice. Ma la soluzione sul dispositivo di Recorder per l’etichettatura degli altoparlanti è stata pensata e lavorata molto.

Google spiega in un post sul blog che le etichette degli altoparlanti sono alimentate dal suo nuovo sistema di diarizzazione degli altoparlanti chiamato Turn-to-Diarize. Sfrutta diversi modelli e algoritmi di machine learning altamente ottimizzati per consentire la registrazione di ore di audio in tempo reale utilizzando risorse computazionali limitate sui telefoni Pixel.

Il sistema è in grado di rilevare i cambi di altoparlante utilizzando un modello di codificatore che estrae le caratteristiche vocali da ciascun altoparlante. Un algoritmo di clustering a più stadi annota quindi le etichette dei diffusori su ciascun diffusore.

Google spiega che le registrazioni audio dall’app Recorder possono durare pochi secondi o fino a 18 ore. Man mano che il modello consuma più audio, diventa più sicuro nella previsione delle etichette degli altoparlanti. Occasionalmente apporta anche correzioni alle etichette dei diffusori a bassa confidenza precedentemente previste. L’app Registratore aggiorna automaticamente le etichette degli altoparlanti sullo schermo durante la registrazione per riflettere le previsioni più recenti e accurate.

Sembra abbastanza magico che il tuo telefono possa fare tutto questo, giusto?

Google afferma che in futuro la funzione Speaker Labels consumerà meno energia grazie ai cambiamenti che sta apportando. Attualmente, il sistema funziona sul blocco CPU dei chip Tensor di Google. L’azienda sta ora lavorando per delegare più compiti computazionali al blocco TPU, rendendo il sistema di diarizzazione più efficiente dal punto di vista energetico.