Oggi il problema delle fake news è il testo. Domani un mezzo anche più potente: il video. Presto si potranno manipolare sia l’immagine che il suono
In un video su YouTube,
Donald Trump dichiara guerra alla Corea del Nord. «Faremo ricorso all’atomica», annuncia bellicoso, con l’usuale arroganza di toni e gesti. Lo spettatore è preoccupato, incredulo. Ma le espressioni del volto sono proprio le sue; le labbra si muovono come ci si aspetterebbe. E la voce, inconfondibile, è quella di chi ha conquistato la Casa Bianca al grido “America first”. Quel video non esiste ancora, e il presidente degli Stati Uniti non ha mai pronunciato quelle parole. Presto tuttavia potrebbe non essere più necessario: saranno le tecnologie di manipolazione audiovisuali consentite dagli sviluppi dell’intelligenza artificiale a creare ad arte una replica digitale di Trump e del suo discorso.
È il futuro delle “fake news”, delle notizie false fatte per confondersi a quelle vere. Oggi il problema è il testo; domani un mezzo anche più potente: il video. Che potrebbe accadere, nell’esempio immaginato? Che pagine Facebook e profili Twitter di guerrafondai entusiasti comincino a condividerlo, fino a renderlo “virale”. Che molti semplici utenti, in chiaro stato di alterazione emotiva, facciano altrettanto. E anche se i media tradizionali e lo stesso Trump si affrettassero a smentire, quanti continuerebbero invece a credere a ciò che hanno visto con i loro occhi? E quali conseguenze diplomatiche e geopolitiche si produrrebbero nel lasso di tempo necessario a diffondere la smentita?
È uno scenario immaginifico, certo, ma che potrebbe porsi davvero in un futuro prossimo, se - come per le bugie e la propaganda testuale, offline e online - non ne anticipassimo i rischi. Già ora, per esempio, un team di ricercatori dell’Università di Washington è in grado di convertire semplici tracce audio in video «realistici, e a labiale sincronizzato» di chi le pronuncia. Per addestrare gli algoritmi oggi servono ore e ore di materiale in alta definizione, e dunque la scelta per il soggetto da manipolare è ricaduta su Barack Obama, di cui ce n’è in abbondanza; domani, tuttavia, basteranno conversazioni su Skype e Messenger, o qualunque contenuto presente in rete.
Gli studiosi specificano di avere scelto coscientemente di non voler «mettere in bocca a qualcuno parole altrui». Eppure non si comprende cosa dovrebbe impedirlo una volta che la loro tecnologia sarà disponibile per i meno ambiziosi scopi dichiarati, come rendere più stabili le videochiamate online. Del resto, c’è molto altro. Progetti ancora embrionali come VoCo di Adobe,
Wavenet di Google o la startup Lyrebird promettono di consentire la clonazione della voce di chiunque, addirittura a partire da un solo minuto di parlato esistente. Con “Face2Face”, un gruppo di ricercatori di Stanford, Norimberga e del Max Planck Institute mostra di essere riuscito a modificare in tempo reale, tramite un attore, espressioni facciali e movimenti labiali in video YouTube esistenti di George Bush e di Trump.
L’obiettivo? «Modificare il video bersaglio in modo fotorealistico, così da rendere virtualmente impossibile notare le manipolazioni». Ancora,
basta un’immagine bidimensionale anche di bassa qualità per creare modelli 3D ultrarealistici di un volto, secondo le ricerche pubblicate su arxiv.org da Hao Li e colleghi. In tutti questi casi le questioni etiche sembrano venire dopo le applicazioni ludiche o di business: che si tratti di costruire dialoghi virtuali tra “amici” nei social del futuro o con personaggi storici scomparsi, o di migliorare le animazioni degli avatar in videogiochi e film. Nessuna delle ripetute richieste di commento dell’Espresso sulle applicazioni propagandistiche delle tecnologie di questi soggetti è andata a buon fine. Solo David Hogg, dell’Università di Leeds, ha voluto spiegare cosa comporta davvero lavorare alla creazione di una “immortalità virtuale”: ovvero manipolare, come nel suo più recente studio, il celebre Joey della serie tv “Friends”, e fargli pronunciare - proprio come lo farebbe lui - battute che non ha mai recitato, dandogli così vita eterna. Ma è solo l’inizio. La promessa è «migliorare la resa» della controparte fittizia, «ed estendere il modello all’interazione con persone reali e tra avatar».
Che significa? Per esempio, risponde Hogg, «avere l’immagine di qualcuno appesa al muro e interagirci dicendogli qualcosa». Certo, aggiunge lo studioso, i risultati prodotti attualmente dal suo metodo non sono buoni abbastanza da immaginare usi propagandistici che ingannino le folle. «Ma assumendo che la qualità migliori, come è quasi certo», quegli usi diventano possibili. Per Hogg è da subito una questione morale: «Finora la mia maggiore preoccupazione è stata il lato emotivo coinvolto nell’interagire con persone care», ma virtuali: «Può essere decisamente inquietante”, ammette.
Altri colleghi sono più scettici. Phillip Smith, Senior Fellow in un progetto di Mozilla sulla disinformazione online, l’Information Trust Initiative, spiega che
«ci vorranno ancora molti, molti anni affinché siano disponibili strumenti economici per manipolare video e audio con il grado di dettaglio necessario a sfuggire al riconoscimento». E del resto, chiede via mail, «ci si è forse posti le stesse domande quando strumenti per la manipolazione fotografica come Photoshop sono stati immessi nel mercato?». Eppure anche se, dice, «la natura della disinformazione non è mutata» con l’era dei social network, a essere cambiato è il “volume” di disinformazione che oggi è possibile produrre. «E c’è la possibilità che questi nuovi strumenti di manipolazione aggiungano benzina al fuoco».
Un rischio più che concreto, se si pensa che il comune denominatore di questi esperimenti sono le reti neurali che hanno conosciuto, negli ultimi anni, uno sviluppo esponenziale. Yoshua Bengio, il docente canadese che ne è tra i padri, pur ricordando che attualmente siamo fuori pericolo, invita a considerare che «
è probabile che entro un paio d’anni avremo imitazioni davvero realistiche sia delle voci che dei volti animati, in cui sarà possibile che qualcuno manipoli cosa viene detto e con quali espressioni del viso». Ma la nostra società, frettolosa e iperconnessa, è pronta ad affrontare una simile minaccia? Gli esperti concordano: no.
Tra le soluzioni, Hogg suggerisce di includere filosofi morali nei team di ricerca. Bengio propone strumenti tecnologici per riconoscere verità e falsità di un contenuto audio-video. Molti notano che audio e video vedranno diminuire il loro valore probatorio in sede giudiziaria.
Ma sono le masse a non essere educate a fronteggiare un’invasione del falso in vista e udito. «Il problema è duplice», dice Charlie Beckett, responsabile di una commissione di studio della London School of Economics dedicata a “Verità, Fiducia e Tecnologia”: «Come incentivare le piattaforme a destinare risorse» per strumenti di fact-checking e «come assicurarsi che producano giudizi esatti»; e «come contribuire a istruire il pubblico» a farlo da sé. Una «sfida strategica per le piattaforme stesse, ma anche per editori, educatori, organizzazioni politiche», dice Beckett. La pochezza del dibattito sulle “fake news” non lascia ben sperare.