L’intelligenza artificiale imita la voce umana dopo averla ascolta per soli tre secondi. Non si tratta di un film di fantascienza o di un romanzo futuristico, ma della nuova creazione presentata da Microsoft e chiamata VALL-E, come il celebre robot del cartone della Disney uscito nel 2008.

L’intelligenza artificiale imita la voce umana

Annunciato non troppo tempo fa dai ricercatori della Microsoft, VALL-E è in grado di simulare la voce umana in modo quasi perfetto dopo averla ascoltata per soli tre secondi. Un risultato decisamente straordinario, ma che in realtà nasconde più di qualche problema potenziale. L’intelligenza, infatti, conserva anche le caratteristiche, le inflessioni e persino il tono emotivo di chi parla. Il progetto della ben nota azienda, nello specifico, consiste in un modello di linguaggio codec naturale, basato su una tipologia di tecnologia denominata “EnCodec”.

Per quanto riguarda il funzionamento dell’intelligenza, anche qui sorprende il livello di avanguardia rispetto al passato. Il modello, infatti, non appena ascoltata la voce in questione, inizia a generare codici di codec audio discreti grazie appunto ad “EnCodec”. Ma non solo, perchè VALL-E è grado di imitare anche l’ambiente acustico dell’audio campione, per poter perfezionare al meglio la riproduzione la voce da imitare. Insomma, un passo avanti non da poco rispetto al passato e che proietta il tutto ad un’accuratezza sempre maggiore.

Ovviamente, però, gli stessi creatori hanno evidenziato come l’intelligenza artificiale, possa aprire le porte ad eventi spiacevoli. Stiamo parlando di “spoofing dell’identificazione vocale” oppure “l’impersonificazione”. Gli stessi programmatori, quindi, hanno dichiarato che:

“Poiché VALL-E potrebbe sintetizzare un discorso conservando l’identità del parlante, potrebbe comportare potenziali rischi nell’uso improprio del modello, come lo spoofing dell’identificazione vocale o l’impersonificazione di un parlante specifico. Abbiamo condotto gli esperimenti partendo dal presupposto che l’utente accetti di essere l’oratore target nella sintesi vocale. Quando il modello viene generalizzato a parlanti invisibili nel mondo reale, dovrebbe includere un protocollo per garantire che il parlante approvi l’uso della sua voce e un modello di rilevamento vocale sintetizzato”.