Una tecnologia che traduce le conversazioni vocali in tempo reale, imitando tono, inflessioni e ritmo. L’Espresso l'ha provata in anteprima grazie a Michele Andreoli, communication manager di Google Italia

Google Meet presenta la traduzione simultanea, con emozioni incluse

Un vecchio film di un vecchio regista - “Um filme falado” di Manoel de Oliveira - raccontava di una crociera, il capitano era John Malkovitck, e i commensali al tavolo del capitano parlavano ciascuno la sua lingua, e tutti si capivano magicamente. Una cosa simile sta per succedere, davvero, su Google Meet. 

 

Big G ha sviluppato la traduzione vocale in tempo reale, grazie a una tecnologia basata ovviamente su AI che, ben oltre i traduttori simultanei, traduce le parole preservando tono, ritmo e inflessioni vocali di chi parla.

 

L’Espresso ha avuto l’opportunità di testare in anteprima questa nuova funzione con Michele Andreoli, communication manager di Google Italia, che ci ha guidati tra le novità del traduttore simultaneo presentato a fine maggio durante l’evento Google I/O, ma è ancora in fase beta.

 

“Quello che rende questa traduzione diversa è che non si limita al significato delle parole,” spiega Andreoli. “Cerca di conservare anche il tono emotivo della voce, dando così al messaggio un contesto più completo. Quella che senti non è una voce neutra o robotica, ma assomiglia a quella originale, con sfumature vocali simili alla tua o alla mia. È un’interazione sorprendentemente naturale”. Per attivarla è bastato andare sul menù strumenti in alto a destra, e selezionare la voce “Traduci”, indicando la lingua in cui si parla e quella in cui si vorrebbe sentir parlare l’interlocutore. E il gioco è fatto.

 

Il cuore di questa tecnologia si chiama AudioLM. Si tratta di un modello generativo sviluppato da Google DeepMind che, a differenza dei sistemi del passato, non passa per una trascrizione testuale intermedia, ma riceve un input audio e genera direttamente un output audio, già tradotto nella lingua di destinazione. In questo modo si riduce la latenza, conservando la coerenza espressiva tra le due lingue.

 

Durante la nostra prova, il sistema ha mostrato una fluidità impressionante. Dopo un leggero ritardo iniziale - proprio come nelle traduzioni in simultanea - si inizia a sentire la voce tradotta che ‘ricalca’ il parlante originale, con un risultato che, pur essendo ancora in beta, appare già maturo. Ci sorge allora un dubbio: ha ancora senso insegnare le lingue ai bambini, se in futuro sarà tutto tradotto in tempo reale? Per Andreoli, lo scenario è chiaro: “Sono due cose completamente diverse. Questa tecnologia non nasce per sostituire lo studio di una lingua, ma per essere utile in contesti dove non potresti comunque impararla o non useresti un interprete. Pensa a una Pmi che deve comunicare con clienti all’estero, o a una famiglia con nonni lontani che parlano un’altra lingua, un bambino piccolo che non parla inglese potrà comunque dialogare con una nonna che non conosce l’italiano.” Non si tratta quindi di abbandonare lo studio delle lingue, ma di democratizzare la comunicazione in quei contesti in cui la barriera linguistica oggi impedisce il dialogo.

Fra gli aspetti più affascinanti di questa tecnologia c’è proprio il ‘colore’ della voce generata dal traduttore “In alcune demo ti senti quasi parlare in inglese con la tua voce,” spiega Andreoli. “È un po’ straniante all’inizio, ma poi ti rendi conto di quanto sia potente come esperienza”.

 

La funzionalità è già stata sviluppata per inglese-spagnolo e per italiano-inglese, e sarà disponibile inizialmente per gli abbonamenti Google One Pro e Ultra, con un rollout graduale che inizialmente riguarderà gli utenti consumer con abbonamento, e a seguire le aziende e i professionisti. Ma non c’è ancora una data ufficiale per la release sul mercato. 

 

Parlare di simulazione vocale e intelligenza artificiale porta a un’ovvia riflessione sul piano etico. “Google ha stabilito da anni i suoi AI Principles, che guidano tutto lo sviluppo dell’intelligenza artificiale”, racconta Andreoli. “Tra questi c’è il principio della trasparenza: per esempio, con SynthID abbiamo introdotto una filigrana digitale invisibile per riconoscere contenuti creati da IA, come immagini o audio sintetici”. Con l’obiettivo di creare strumenti utili, capaci di migliorare la vita quotidiana delle persone e generare un impatto positivo, che si tratti di comunicazione, ricerca scientifica o lavoro.

 

 “AlphaFold, uno dei progetti nati da DeepMind, ha rivoluzionato la ricerca sulle proteine al punto da valere ai suoi creatori un premio Nobel”, Andreoli traccia un parallelismo fra ambiti diversi perché, spiega, “È l’esempio più concreto del potenziale dell’IA quando viene messa al servizio dell’umanità.”

 

Il futuro di queste tecnologie è ancora da scrivere, e chissà in quante lingue. “Credo siano state scelte le lingue più diffuse, come lo spagnolo e a breve anche il portoghese, per massimizzare l’impatto iniziale,” conclude Andreoli. “Ma il nostro obiettivo è estendere la copertura linguistica il più possibile, per rendere questa forma di comunicazione accessibile a tutti.” La torre di Babele chiude ufficialmente i battenti: d’ora in avanti bisognerà continuare a studiare le lingue, ma all’occorrenza l’AI ci darà una mano.

LEGGI ANCHE

L'E COMMUNITY

Entra nella nostra community Whatsapp

L'edicola

Le crepe di Trump - Cosa c'è nel nuovo numero de L'Espresso

Il settimanale, da venerdì 13 giugno, è disponibile in edicola e in app