Non credere alle tue orecchie: deepfake vocali

Registrazioni audio deepfake che imitano la voce di chiunque vengono già utilizzati per truffe multimilionarie. Come vengono realizzati i deepfake e come proteggersi.

Ti è mai capitato di chiederti come facciamo a sapere con chi stiamo parlando al telefono? Ovviamente non si tratta solo del semplice nome visualizzato sullo schermo. Se sentiamo una voce sconosciuta quando riceviamo una chiamata da un numero salvato, capiamo subito che qualcosa non va. Per cercare di capire con chi stiamo realmente parlando, inconsciamente notiamo il timbro, il modo e l’intonazione del discorso. Ma quanto è affidabile il nostro udito nell’era digitale dell’intelligenza artificiale? Come ci insegnano le ultime notizie, non sempre conviene fidarsi di quello che sentiamo, perché le voci possono essere contraffatte utilizzando la tecnologia deepfake.

Aiuto, sono in pericolo!

Nella primavera del 2023, alcuni truffatori in Arizona hanno tentato di estorcere denaro a una donna per telefono. La donna ha sentito la voce della figlia quindicenne implorare aiuto prima che uno sconosciuto prendesse il telefono e chiedesse un riscatto, mentre si sentivano ancora le urla della figlia in sottofondo. La madre era sicura che la voce fosse quella di sua figlia. Fortunatamente, di lì a poco ha scoperto che in realtà la figlia stava bene, rendendosi conto di essere stata vittima di un tentativo di truffa.

Non può essere dimostrato al 100% che gli aggressori abbiano utilizzato un deepfake per imitare la voce dell’adolescente. Forse la truffa era di natura più tradizionale e i malintenzionati contavano sul fatto che la qualità della chiamata, l’imprevedibilità della situazione, lo stress e l’immaginazione della madre avrebbero fatto la loro parte nel convincerla. Ma se anche questo caso non avesse niente a che fare con le tecnologie di rete neurale, le truffe tramite deepfake possono verificarsi e senza dubbio si verificano. Inoltre, con il continuo sviluppo di questa tecnologia, diventano sempre più convincenti e pericolose. Per contrastare il diffondersi dell’utilizzo della tecnologia deepfake a scopo fraudolento da parte dei criminali, dobbiamo capire come funziona.

Cosa sono i deepfake?

L’intelligenza artificiale dei deepfake ( “deep learning” + “fake”) è cresciuta rapidamente negli ultimi anni. Le tecniche di machine learning possono essere utilizzate per creare falsi convincenti di immagini, video o contenuti audio. Ad esempio, utilizzando le reti neurali è possibile intervenire su foto e video per sostituire il volto di una persona con un altro preservando le espressioni e l’illuminazione. Sebbene inizialmente questi falsi fossero di bassa qualità e facili da individuare, con lo sviluppo degli algoritmi i risultati sono diventati così convincenti che ora è difficile distinguerli dalla realtà. Nel 2022, per la prima volta nella storia mondiale, è stato lanciato in Russia un programma televisivo deepfake, in cui i cloni deepfake di Jason Statham, Margot Robbie, Keanu Reeves e Robert Pattinson interpretano i personaggi principali.

Versioni deepfake delle star di Hollywood nella serie TV russa PMJason. (Fonte)

Versioni deepfake delle star di Hollywood nella serie TV russa PMJason. (Fonte)

Conversione vocale

In questo articolo, tuttavia, ci concentriamo sulla tecnologia utilizzata per creare deepfake vocali. È anche nota come conversione vocale (o “clonazione vocale” se si sta creando una copia digitale completa). La conversione vocale si basa sugli autoencoder, un tipo di rete neurale che prima comprime i dati di input (parte del codificatore) in una rappresentazione interna compatta, quindi impara a decomprimerli da questa rappresentazione (parte del decodificatore) per ripristinare i dati originali. In questo modo, il modello impara a presentare i dati in un formato compresso evidenziando le informazioni più importanti.

Schema di codifica automatica.

Schema di codifica automatica. (Fonte)

Per creare i deepfake vocali, vengono inserite nel modello due registrazioni audio, con la voce della seconda registrazione convertita nella prima. Il codificatore del contenuto viene utilizzato per determinare ciò che è stato detto nella prima registrazione, mentre il codificatore del parlante viene utilizzato per estrarre le caratteristiche principali della voce dalla seconda registrazione, ovvero il modo in cui la seconda persona parla. Le rappresentazioni compresse di quello che deve essere detto e di come viene detto vengono combinate e il risultato viene generato utilizzando il decodificatore. In questo modo, quello che viene detto nella prima registrazione viene espresso dalla persona della seconda registrazione.

Processo di creazione di una voce deepfake

Processo di creazione di una voce deepfake. (Fonte)

 

Esistono altri approcci che utilizzano i codificatori automatici, ad esempio quelli che utilizzano reti neurali generative (GAN) o modelli di diffusione. La ricerca su come realizzare i deepfake è supportata in particolare dall’industria cinematografica. Pensaci: con le tecnologie deepfake per audio e video è possibile sostituire i volti degli attori nei film e negli spettacoli TV e doppiare i film sincronizzando alla perfezione le espressioni facciali in qualsiasi lingua.

Ecco come funziona.

Durante la ricerca sulle tecnologie deepfake, ci siamo chiesti quanto potesse essere difficile creare un deepfake della propria voce. È venuto fuori che sono disponibili molti strumenti open source gratuiti per lavorare con la conversione vocale, ma non è altrettanto facile ottenere un risultato di alta qualità. Occorrono esperienza di programmazione in Python e buone capacità di elaborazione. E anche in questo caso la qualità ottenuta è tutt’altro che ideale. Oltre a quelle open source, sono disponibili anche soluzioni proprietarie e a pagamento.

Ad esempio, all’inizio del 2023 Microsoft ha annunciato un algoritmo in grado di riprodurre una voce umana sulla base di un esempio audio della durata di soli tre secondi! Questo modello funziona anche con più lingue, quindi puoi persino sentirti parlare una lingua straniera. Questa soluzione sembra promettente, ma attualmente è ancora in fase di ricerca. La piattaforma ElevenLabs, invece, consente agli utenti di creare deepfake vocali senza fatica: basta caricare una registrazione audio della voce e delle parole da pronunciare e il gioco è fatto. Ovviamente, non appena si è sparsa la voce, le persone hanno iniziato a giocare con questa tecnologia in tutti i modi possibili.

La battaglia di Ermione e una banca troppo fiduciosa

In piena conformità con la legge di Godwin, a Emma Watson è stato fatto leggere il Mein Kampf e un altro utente ha utilizzato la tecnologia ElevenLabs per sferrare un attacco al proprio conto bancario. Trovi che sia inquietante? Per noi lo è. In particolare, se a tutto questo aggiungiamo le spaventose storie riguardanti truffatori che raccolgono campioni di voci facendo pronunciare alle persone le parole “sì” o “conferma”, mentre sono al telefono con presunti operatori di una banca, un ufficio della pubblica amministrazione o un servizio di sondaggi, con lo scopo di rubare il loro denaro utilizzando l’autorizzazione vocale.

In realtà, la situazione non è così catastrofica. In primo luogo, occorrono circa cinque minuti di registrazioni audio per creare una voce artificiale in ElevenLabs: un semplice “sì” non è sufficiente. In secondo luogo, anche le banche sono a conoscenza di queste truffe. La voce può quindi essere utilizzata solo per avviare determinate operazioni non correlate al trasferimento di fondi (ad esempio, per controllare il saldo del conto). In sostanza, rubare denaro in questo modo non è possibile.

A ElevenLabs va riconosciuto il merito di aver reagito rapidamente al problema, riscrivendo le regole del servizio, vietando agli utenti gratuiti (ovvero anonimi) di creare deepfake basati sulle proprie voci caricate e bloccando gli account segnalati con reclami per “contenuti offensivi”.

Per quanto utili possano essere, queste misure tuttavia non risolvono ancora il problema dell’utilizzo dei deepfake vocali per scopi sospetti.

Altri utilizzi dei deepfake nelle truffe

La tecnologia deepfake di per sé è innocua. Se utilizzata per scopi fraudolenti o intenti criminali, può tuttavia diventare uno strumento pericoloso, che offre molte opportunità di inganno, diffamazione o disinformazione. Fortunatamente, non si sono verificati casi di truffe di massa riguardanti l’alterazione della voce. Si sono verificati, invece, diversi casi di alto profilo in cui i truffatori hanno utilizzato deepfake vocali.

Nel 2019, questa tecnologia è stata utilizzata per organizzare una truffa ai danni di un’azienda del settore energetico con sede nel Regno Unito. Durante una conversazione telefonica, fingendo di essere il CEO dell’azienda madre tedesca, il truffatore ha richiesto un trasferimento urgente di € 220.000 sul conto di un’azienda fornitrice. Dopo il pagamento, il truffatore ha chiamato altre due volte: la prima volta per rassicurare il personale dell’ufficio nel Regno Unito, segnalando che l’azienda madre aveva già inviato un rimborso, e la seconda volta per richiedere un altro trasferimento. Durante tutte e tre le chiamate, il responsabile della sede nel Regno Unito era stato assolutamente sicuro di aver parlato con il suo manager, perché ne aveva riconosciuto sia l’accento tedesco che il tono e il modo di parlare. Il secondo trasferimento non è stato eseguito solo perché il truffatore per errore ha effettuato la chiamata da un numero austriaco, anziché tedesco, rendendo sospettoso il responsabile dell’ufficio britannico.

Un anno dopo, nel 2020, in un’altra truffa i criminali hanno utilizzato la tecnologia deepfake per mettere a segno un furto di una cifra che potrebbe arrivare a 35.000.000 di dollari ai danni di un’anonima società giapponese (dalle indagini non sono emersi né il nome della società, né il valore totale dei beni rubati).

Non è noto quali soluzioni (open source, a pagamento o addirittura proprietarie) i truffatori abbiano utilizzato per falsificare le voci, ma in entrambi questi casi le aziende hanno chiaramente, e gravemente, subito una frode deepfake.

Previsioni per il futuro

Le opinioni sul futuro dei deepfake sono discordi. Attualmente, una larga parte di questa tecnologia è nelle mani di grandi aziende e la disponibilità al pubblico è limitata. Ma come dimostra la storia dei molto più popolari modelli generativi, come i programmi DALL-E, Midjourney e Stable Diffusion, e degli ancora più popolari modelli linguistici di grandi dimensioni (LLM, Large Language Model) come ChatGPT, tecnologie simili potrebbero diventare di pubblico dominio nel prossimo futuro. Ne è la conferma la recente fuga di informazioni trapelate dalla corrispondenza interna di Google, in cui alcuni rappresentanti del gigante di Internet rivelano il timore di perdere la corsa dell’IA alle soluzioni aperte. Questo comporterà ovviamente un aumento dell’uso dei deepfake vocali, anche per scopi fraudolenti.

Il passo più promettente nello sviluppo dei deepfake è la generazione in tempo reale, che garantirà una crescita esplosiva dei deepfake (e delle truffe in cui verranno utilizzati). Riesci a immaginare una videochiamata con qualcuno il cui volto e la cui voce sono completamente falsi? Ad ogni modo, si tratta di un livello di elaborazione dei dati che richiede quantità enormi di risorse, di cui solo le grandi corporation dispongono. Le migliori tecnologie rimarranno pertanto private e i truffatori non saranno in grado di stare al passo con i professionisti. La qualità non eccezionale aiuterà anche gli utenti a imparare a identificare facilmente le contraffazioni.

Come proteggersi

Per tornare alla domanda iniziale: possiamo fidarci delle nostre orecchie e delle voci che sentiamo? Con tutta probabilità, nella maggior parte dei casi, diventare paranoici e iniziare a inventare parole in un codice segreto da usare con amici e familiari sarebbe un po’ esagerato, Tuttavia, in situazioni più gravi la paranoia potrebbe essere appropriata. Secondo le previsioni basate sullo scenario più pessimistico, nelle mani dei criminali la tecnologia deepfake in futuro potrebbe diventare un’arma formidabile. Ma abbiamo ancora tempo per prepararci e creare metodi affidabili per proteggerci dalla contraffazione: sono già disponibili molte ricerche sui deepfake e le grandi aziende stanno già lavorando allo sviluppo di soluzioni di protezione mirate. Abbiamo già parlato in dettaglio di come contrastare i deepfake video in questo articolo.

Per il momento, siamo solo all’inizio dello sviluppo di adeguati sistemi di protezione contro le contraffazioni dell’IA. È quindi importante tenere presente che i deepfake sono solo un altro tipo avanzato di social engineering. Il rischio di imbattersi in truffe come questa è basso, ma è reale. Vale quindi la pena conoscerle e imparare a riconoscerle. Se ricevi una chiamata strana, presta attenzione alla qualità del suono. La tonalità è innaturale, incomprensibile o ci sono strani rumori? Ricontrolla sempre le informazioni tramite altri canali e ricorda che i truffatori fanno affidamento soprattutto sull’effetto sorpresa e sul panico.

Consigli