Uno dei temi etici sollevati dall’uso dell'Ai è stato, fin da subito, quello dei bias. I dati utilizzati per addestrare l’Ai arrivano dal mondo reale e presentano alcune discriminazioni tipiche di certe società. Facciamola facile: la maggior parte dei Ceo di grandi aziende sono uomini bianchi, e quindi se si chiede all’Ai di creare l’immagine di un Ceo, il risultato sarà quasi certamente una figura maschile caucasica. E questo rappresenta un problema sotto tanti punti di vista. Quando il tema dei bias è diventato concreto - e sembra sia passato un secolo ma era invece solo un anno fa - da più parti si è indicata una soluzione nell’utilizzo dei dati neutri, sintetici. Ha fatto quindi notizia la novità introdotta da Clearbox Ai, la startup italiana che ha sviluppato una piattaforma - Replica Italia - che crea una replica digitale della popolazione, circa 60 milioni di profili sintetici.
Replica Italia: una rivoluzione nell'analisi dei dati
L’Ai si nutre di dati, big data, quindi una mole enorme di dati. Sarebbe auspicabile che fossero privi dei ‘preconcetti’ che caratterizzano la realtà, e questa esigenza ha stimolato la creazione di soluzioni innovative come Replica Italia. Lanciata lo scorso 31 marzo 2025, è una piattaforma che rappresenta il primo gemello digitale della popolazione italiana, una copia simulata e statisticamente verosimile dei 60 milioni di individui di cui ha ricreato profili plausibili con caratteristiche dettagliate quali età, professione, interessi e abitudini di consumo. Rappresenta un sofisticato strumento che realizza una ‘fotografia statistica e digitale’ degli italiani, utile ad esempio per condurre analisi di mercato, simulazioni e ricerche socio-economiche mantenendo elevati standard di privacy e riducendo i bias associati ai dati reali.
Funzionamento e applicazioni di Replica Italia
Raccontata così, Replica Italia ricorda un po' le mappe sinottiche di Eurisko, quello strumento che nella versione cartacea, fino ai primi anni duemila, veniva utilizzato dalle agenzie per la pianificazione delle campagne pubblicitarie. E se il paragone regge, Replica andrebbe intesa come la versione super-Pro: attraverso un’interfaccia web user friendly, cioè facile da usare, permette di definire panel di utenti ‘sintetici’ con specifiche variabili demografiche e comportamentali. La piattaforma genera così una popolazione virtuale, specularmente corrispondente a un ‘panel statistico reale’ e coerente con i criteri scelti, pronta per essere interrogata con prompt testuali. Un esempio per tutti: un responsabile marketing vuole testare il lancio di uno snack salutare, e può creare un panel con parametri specifici e ottenere risposte su gusti, frequenza di consumo e propensione all’acquisto del suo target. Col sistema dei dati sintetici i bias vengono ‘superati’ utilizzando un matching di open data e tecniche di validazione statistica. Questo permette di offrire analisi di mercato e di consumo personalizzate, a cui l’utente che si interfaccia col servizio può aggiungere anche dati di propria produzione, quali le caratteristiche di marketing del prodotto da testare.
Vantaggi dei dati sintetici
Nel campo dell’intelligenza artificiale, si parla spesso di approccio model-centric e data-centric. La differenza fra questi due modelli l’ha spiegata a L’Espresso proprio Shalini Kurapati, Ceo di Clearbox Ai. “L’approccio model-centric si concentra sul miglioramento del modello: si lavora su architetture sempre più complesse e algoritmi sofisticati per aumentare le prestazioni”. Al contrario, l’approccio data-centric, spiega Kurapati “mette al centro i dati, puntando a migliorarne qualità, coerenza e rappresentatività per ottenere risultati migliori senza modificare il modello”. In entrambi i casi è fondamentale ricordare quella che la Ceo chiama “una verità di fondo: i dati sono la base su cui si costruisce ogni modello. Anche il miglior algoritmo non può dare buoni risultati se allenato su dati incompleti o poco rilevanti”. Bisogna quindi curare la qualità dei dati tanto quanto quella dei modelli. Clearbox Ai utilizza quindi “dati sintetici e questo offre numerosi vantaggi rispetto ai dati reali, tra cui la tutela della privacy, la riduzione dei bias strutturali e una maggiore accessibilità”. Clearbox Ai ha inoltre sviluppato Sure, una libreria di validazione con metriche avanzate per valutare la fedeltà dei dati sintetici rispetto alla realtà che intendono modellare, per riflettere fedelmente le dinamiche della popolazione reale senza esporne le informazioni sensibili. Anche l'Agenzia per l'Italia Digitale (AgID) avalla l'adozione di soluzioni basate su dati sintetici, come appunto fa Replica Italia che, di fatto, rappresenta un passo significativo verso l'innovazione digitale nel Paese, offrendo strumenti avanzati per analisi e decisioni basate su dati.
Implicazioni future e considerazioni etiche
L'introduzione di Replica Italia apre nuovi scenari. Tuttavia è fondamentale affrontare con attenzione le implicazioni etiche legate all'uso di dati sintetici assicurando trasparenza, equità e rispetto dei diritti degli individui. Nel prossimo futuro i dati saranno sempre più il fattore decisivo nell’Ai, attraverso il progresso dei modelli open source (o open weights) e una crescente efficienza nei costi di addestramento. Sarà proprio la qualità, la varietà e la rappresentatività dei dati a fare la differenza tra un sistema generativo mediocre e uno utile e affidabile. In un panorama dove le architetture dei modelli diventano sempre più accessibili e standardizzate, il vero vantaggio competitivo si sposterà sui dati. Un trend chiave per il futuro dell’intelligenza artificiale riguarderà l’uso strategico dei dati sintetici, sempre più centrale per affrontare alcune delle sfide più complesse dell’approccio data-centric: superare i bias, colmare i gap informativi nei dataset reali e testare sistemi in scenari rari o estremi.
Synthetic User
In questo contesto si apre una nuova frontiera particolarmente promettente: quella dei synthetic user, utenti sintetici ma verosimili modellati per simulare comportamenti, preferenze e interazioni realistiche. Profili artificiali che consentiranno di testare scenari complessi, ottimizzare esperienze utente e anticipare l’impatto di nuove funzionalità o strategie, anche in assenza di dati reali, come avviene prima del lancio effettivo di un servizio. È una direzione che apre a numerose applicazioni future, dal design di prodotti digitali alla valutazione dell’equità algoritmica, e segna un’evoluzione naturale del paradigma data-centric verso una fase più matura e proattiva.