Mancano i dati? Li creiamo noi. Sintetici
di Massimo Cerofolini
-
22 Maggio 2022
Parla Shalini Kurapati, indiana residente a Torino, fondatrice di una startup che produce dati artificiali perle attività previsionali delle aziende (tra cui anche banche). Utili in caso di carenza, costi eccessivi, tempi stretti, limiti normativi o cattiva qualità di quelli disponibili. «Non sono uguali a quelli reali, ma simili, e con le stesse capacità statistiche e predittive».
Non sempre è possibile raccogliere i dati necessari per orientare le scelte di un’azienda. A volte perché troppo costoso. O perché manca il tempo. Altre perché non sarebbe legale. Oppure perché di fonti disponibili ce ne sono poche o non ce ne sono affatto. O ancora perché i pochi reperibili sono di cattiva qualità, ordinati male, viziati da errori e preconcetti. Come fare allora a trasformare quelli che passano per il nuovo petrolio dell’economia in un valore effettivo? Una soluzione c’è: si simulano. Sempre più spesso infatti le imprese ricorrono ai cosiddetti dati sintetici per formulare gli algoritmi capaci di predire gli sviluppi futuri o testare prodotti e servizi. Di che si tratta? Sono informazioni artificiali, create e sintetizzate in modo diverso e per vari contesti. Il loro scopo è approssimarsi e sostituirsi a quelli della vita reale. E alimentare così l’efficienza e la precisione del carburante dei moderni software, l’intelligenza artificiale. Simulare il mondo, nascondendolo, è il lavoro di una giovanissima informatica indiana, Shalini Kurapati, formatasi tra il suo Paese d’origine, la Svezia e Olanda, e ora in pianta stabile a Torino dove insieme a Luca Gilli, oltre a una famiglia, ha messo su un’azienda sbocciata dal Politecnico sabaudo: Clearbox Ai. L’abbiamo intervistata.
Cosa sono i dati sintetici?
Per dare una definizione esatta bisogna fare un piccolo passo indietro. Perché se guardiamo al mondo dell’intelligenza artificiale e alla sua progressiva adozione, notiamo che almeno un progetto su dieci non entra in produzione per problemi legati ai dati. Problemi legati ai dati significa mancanza di accesso alle informazioni decisive, perché magari si tratta di dati sensibili, perché sono sporchi, sono parziali o sono alterati dai pregiudizi di chi li ha sviluppati. Il dato sintetico è una soluzione nata proprio per risolvere questo tipo di problemi. Sono dati artificiali, generati da algoritmi, però con un seme di realtà. Non vengono cioè dal nulla, ma ricreano in modo matematico situazioni della vita vera, mantenendo le stesse proprietà statistiche e predittive di quelli originali. Quindi risultano realistici.
Un primo beneficio è quello di sopperire a uno dei grandi limiti per chi utilizza i dati: il doveroso rispetto per la privacy delle persone. Le normative europee sono infatti molto restrittive nel concedere dati che riguardano la sfera privata degli utenti.
Esatto. I dati sintetici sono simili a quelli reali ma non sono uguali a questi. È il motivo per cui l’ente europeo per la protezione dei dati personali li considera un meccanismo corretto per preservare la privacy delle persone. Quando condividiamo i nostri dati sensibili infatti non sempre vogliamo cedere dettagli intimi della nostra vita al fine di favorire la creazione di servizi o progetti da parte di un’impresa. Non solo quelli diretti all’esterno, ma anche quelli all’interno della azienda sono in fin dei conti un tema molto delicato. Così, per ridurre il rischio di un attacco informatico favorito dalla diffusione di aspetti personali di un dipendente, possiamo difenderci clonando il dato sensibile con un dato sintetico: i nostri computer saranno più protetti dai pirati informatici. In pratica quello che manca è il legame diretto con una persona vera. Ma al contempo abbiamo creato un ambiente dentro cui operare in sicurezza. Un po’ come avviene nei circuiti dove si testano le automobili: luoghi dove sperimentare scenari possibili ma in modo tranquillo e protetto.
Un altro vantaggio è fornire dati di qualità migliore. Perché oggi gli algoritmi lavorano spesso su uno storico precedente che rispecchia vizi e abitudini negative di tempi in cui le discriminazioni erano più pesanti di oggi. Oppure vengono elaborati da programmatori che non sempre hanno opinioni equilibrate e che finiscono per tradurre le loro visioni distorte in codici all’apparenza neutri e oggettivi.
Questo è un altro aspetto del dato sintetico. E ci sono due lati da considerare. Il primo riguarda appunto i pregiudizi che gli algoritmi assorbono dalle informazioni che carichiamo o dalle idee personali di chi li crea. E questo può portare ovviamente a discriminazioni verso categorie che non appartengono a quelle favorite dal costume corrente, come le donne, le persone di colore o le minoranze in generale. Ma poi c’è un altro aspetto. Facciamo il caso di una banca che voglia sviluppare un algoritmo per intercettare i tentativi di frode e capire se una certa carta di credito venga usata in modo corretto dal suo legittimo proprietario. Tutti i dati in suo possesso, sotto questo punto di vista, rischiano di essere sbilanciati, perché si basano sul totale dei casi di frode disponibili. Con il rischio in questo caso di creare falsi positivi. Per avere invece un’analisi più precisa bisogna irrobustire la quantità di dati, considerando anche tutte le volte che di frodi non ce ne sono state. Ecco, il dato sintetico può essere creato per ponderare questo genere di indagine.
E poi un altro aspetto: oltre all’impossibilità di averli o alla difficoltà di produrli, c’è un problema di costi. Secondo alcuni esperti, l’etichettatura di un’immagine reale per addestrare l’intelligenza artificiale costa in media sei dollari, se questa viene sintetizzata si scende invece a 6 centesimi. Usare dati sintetici dunque significa risparmiare.
Sì, per avere modelli e analisi robuste servono tantissimi dati. Per fare modelli predittivi, e sapere cosa succede e cosa non succede in determinate circostanza, bisogna sperimentare una serie enorme di variabili. E questo ha un costo rilevante che i dati sintetici abbattono. Anche qui un altro vantaggio, parlando di pregiudizi, è la possibilità di bilanciare coi dati sintetici il dataset iniziale: se la base dati di partenza rappresenta soltanto un certo tipo di popolazione, possiamo aumentarne artificialmente il numero per dare una maggiore rappresentazione di un fenomeno.
Vediamo il caso delle banche. A cosa possono servire queste simulazioni della realtà?
Normalmente le banche, come qualsiasi azienda che utilizza software di intelligenza artificiale, preferiscono usare dati veri, in modo da ricavare performance e modelli robusti. Però, per ridurre il rischio di violare la privacy, sempre più spesso si comincia la ricerca dai dati sintetici. Prima di tutto per testare il rispetto della privacy di un determinato servizio. E poi per aumentare la qualità dei dati. Noi, per esempio, lavoriamo con istituti che grazie ai nostri dati sintetici testano i propri software prima di metterli in produzione: per esempio, se c’è un nuovo portale, una nuova funzione, la migrazione su una nuova piattaforma cloud, si possono provare le diverse opzioni prima con i dati sintetici e verificare in modo simulato se tutto è a posto.
Altri utilizzi?
Nel campo energetico, abbiamo tantissimi sensori capaci di analizzare in ogni singola abitazione a che ora e per quanto tempo vengono accesi i fornelli. Di fatto dati sensibili ma utili per proporre soluzioni più adatte alla clientela. Nel settore dei trasporti stesso problema. Hanno i nostri dati personali su dove siamo e a che ora del giorno: conoscenze preziose per fornirci applicazioni migliori, ma con il rischio di essere molto invasivi sulle nostre vite personali. Esempi analoghi nel commercio. Ecco, alcune situazioni in cui bisogna trovare un punto di equilibrio tra i benefici dell’uso dei dati e il rispetto della nostra privacy. E i dati sintetici sono lì per questo.