Nuovo punto di arrivo per la ricerca Google in ambito Intelligenza Artificiale, con la messa a punto di una tecnologia in grado di individuare e separare da folla e rumori una singola voce.
Isolare una voce umana in un contesto rumoroso, con altre voci che si accavallano nei dintorni, può risultare naturale per le persone, se la voce che si vuol ascoltare si trova a pochi passi o pochi cm, focalizzando l'attenzione e, come si suol dire, drizzando bene le orecchie. Pensiamo, ad esempio, ad un colloquio fra due persone in discoteca. Difficile dialogare bene, ma, con un po' di dimestichezza, interpretazione labiale, accostamento dell'orecchio, ci si riesce.Un software o un dispositivo elettronico non può fare questo, a meno che non si parli di un microfono nel quale, intenzionalmente, una specifica voce viene indirizzata dall'essere umano ad altri esseri umani.
Gli ingegneri di Google Research sono riusciti a superare questo ostacolo, programmando un dispositivo dotato di AI in grado di identificare un volto in un ambiente affollato, seguirlo ed isolarne la voce, eliminando tutte le altre voci e onde sonore che lo circondano.
Il Sistema di Google impara, gradualmente, ad identificare una singola voce, venendo 'addestrato' con video e audio sovrapposti artificialmente, riuscendo in breve tempo a determinare, basandosi su movimenti facciali e frequeze audio, a quale volto corrisponde la voce da analizzare e mantenere in primo piano.
In maniera decisamente sbalorditiva, l'Intelligenza Artificiale di Google riesce a distinguere una singola voce e separarla da un'altra e da rumori di sottofondo, anche se si uniscono due video nei quali parla la stessa persona ad un microfono, con, quindi, lo stesso volto, le medesime espressioni, lo stesso tono, gli stessi gesti.
I video seguenti mostrano, meglio delle parole, il punto di arrivo di questa nuova tecnologia sviluppata da Google Research, con diversi esempi pratici.
La società di Mountain View non ha ancora comunicato gli impieghi futuri di questo nuovo aspetto della propria AI (da considerare situazioni e risvolti legati alla privacy in ambienti affollati), ma, sicuramente, ne beneficieranno prodotti come Google Home o altri device e software che prevedono comandi vocali per il funzionamento.
Fonte: Google Reaserch
Articolo di HTNovo