Tu chiedi lui risponde come un umano: la rivoluzione ChatGpt
di Massimo Cerofolini
-
24 Gennaio 2023
Gli algoritmi generativi sono la grande innovazione del momento: conversano in linguaggio naturale, scrivono saggi, riassunti, ispirano idee e producono codici. Ma creano anche immagini, trascrivono video e audio. Tutto in autonomia. Tantissime le nuove applicazioni anche per le banche. Ma non mancano i problemi da risolvere. A cominciare dal rischio di frodi e furti d’identità. La nostra intervista all’esperto, Alessio Pomaro
Non solo l'ormai celebre ChatGpt, il sistema che risponde con accuratezza, disinvoltura e linguaggio naturale a domande su qualsiasi tema, verga articoli, saggi o slide, sintetizza in poche righe interi volumi, crea codici software, risolve equazioni matematiche, ispira idee o scrive poesie alla maniera di artisti di ogni epoca. Ma anche programmi che con un clic trasformano poche parole di testo in un'immagine, un audio, un video, un codice software. O al contrario che da un audio, una foto o un video ricavano un testo. Tra eccitazione e spavento, da qui ai prossimi mesi prepariamoci a una girandola di annunci che avranno come denominatore comune le due parole magiche del momento: algoritmi generativi. Sono loro la grande speranza di ripresa per il mondo digitale, contuso da crolli in borsa, licenziamenti, passi falsi come il deludente metaverso di Facebook o scandali come quelli legati alle criptovalute. Il motivo? Tra non molto avremo strumenti in grado di generare in autonomia qualunque cosa in qualunque formato (testo, audio, foto, video, codice, nft e via dicendo) a partire da qualunque formato di ingresso (testo, audio, video, codice, nft e via dicendo). Questo, va da sé, apre la strada a una serie infinita di applicazioni che potrebbero ridefinire, potenziare e riorganizzare le pratiche quotidiane delle aziende, comprese quelle bancarie. Ma allo stesso tempo spalanca una lunga lista di questioni ancora tutte da decifrare. Tipo: come affidare decisioni delicate a macchine ancora imprecise, a volte illogiche, suscettibili di errori formali e sostanziali? Come distinguere l’opera umana da quella sintetica? E di conseguenza come evitare frodi e manipolazioni impossibili da riconoscere a occhio nudo? Ma anche, come compensare i posti di lavoro che questi dispositivi andranno a cancellare?
Di tutto ciò proviamo a ragionare con Alessio Pomaro, esperto di intelligenza artificiale e autore di saggi come Voice technology (e dal primo febbraio anche Brand Voice), tra gli addetti ai lavori più fertili nello sperimentare i software generativi che ogni giorno si affacciano sul mercato.
Allora, partiamo dalla definizione. Che cosa si intende per algoritmi generativi?
Gli algoritmi generativi sono sistemi basati sull'intelligenza artificiale e sul machine learning, allenati su un enorme quantità di dati. Ad esempio, se pensiamo a Gpt3, che è quello più conosciuto, questo è addestrato su 50 terabyte di dati e si basa su reti neurali composte da miliardi di parametri. Ora sarebbe molto complesso spiegare cosa sono questi parametri, ma quello che ci interessa capire è che più questi parametri sono grandi e più precisi saranno gli algoritmi per rispondere alle nostre richieste e nel fornirci le loro predizioni.
Noi tendiamo ad attribuire a questi algoritmi delle caratteristiche umane. In realtà è bene ricordare non capiscono ciò che noi chiediamo, ma fanno soltanto predizioni statistiche sulla base delle sequenze di parole che hanno ricevuto in pasto durante l’addestramento. Noi chiediamo “dov’è la statua della Libertà” e immaginiamo che lui capisca che la risposta sia New York. In realtà la domanda vera sarebbe: “quale nome di città è più ricorrente dopo le parole Statua della Libertà?”. Questo non è il primo equivoco da sgombrare?
Già. Infatti Gary Marcus, che è un luminare nell'ambito dell'intelligenza artificiale, dice che Gpt3 non impara nulla sul mondo ma impara molto bene come le persone utilizzano le parole.
Vediamo meglio il più famoso di questi sistemi, ChatGpt appunto, creato da Open Ai, azienda fondata tra gli altri da Elon Musk (ora fuori) e usata commercialmente da Microsoft. Il suo oracolo è – per ora - a disposizione gratuita di tutti sul sito di Open Ai, sebbene sia sempre più difficile accedervi, vista la sua enorme popolarità mondiale. Perché ha così tanto successo?
ChatGpt è un modello di linguaggio che utilizza il deep learning per produrre contenuti in modo simile a quello che farebbe un essere umano. L'acronimo di Gpt, per chi è interessato, sta per generative pre-trained transformer: quindi è proprio qualcosa di generativo, di pre-addestrato e basato sui transformer che sono un po' l'architettura del sistema. In sostanza acquisiscono dati dalle fonti più disparate, come Wikipedia, i giornali, i libri o le enciclopedie. Poi c'è Common Crawl, che è un archivio open disponibile online a cui puoi accedere anche da web e contiene scansioni di tutto il materiale che viene trovato online: un sistema che prende nozioni da tutti i siti web, valutando la qualità delle risposte in base ai voti che compaiono su Reddit. Se il rating è buono presume che il contenuto sia di qualità, altrimenti lo scarta. Ma si tratta comunque di un sistema empirico. Ed è il motivo per cui a tutt’oggi molte risposte di ChatGpt sono imprecise e non troppo affidabili. C’è poi da dire che, avendo analizzato tutti i libri dei maggiori autori, il sistema è capace di fornire risposte che – a richiesta - ricalcano lo stile di un certo scrittore o di un certo poeta. O comunque di replicare con un tono o con uno stato emotivo diverso a seconda di chi fa la richiesta.
ChatGpt è il più famoso algoritmo generativo della famiglia cosiddetta text-to-text: ossia io scrivo qualcosa e ottengo una risposta scritta. Ma non è l’unico.
Sì, ce ne sono altri che fanno cose simili come Simplify, Jasper, Frase o Copy AI, ma molti di questi sono basati su Gpt3, il modello di Open Ai alla base di ChatGpt.
A questo punto, vista anche l’intenzione di Microsoft di usare ChatGpt sul suo motore di ricerca Bing, uno si domanda: che ne sarà del motore di ricerca che tutti usiamo, quello di Google?
Secondo me c’è da fare una distinzione tra i modelli di linguaggio e i motori di ricerca. Mentre il motore di ricerca, è il caso di Google, vuole dare una risposta all’utente basata sui diversi riferimenti, link e siti che trova online, il modello di linguaggio – come ChatGpt – ha un altro compito, ossia completare un testo: cos’è più probabile che ci sia dopo una certa sequenza di parole? Si è partiti con il completamento di una domanda e si è arrivati, con l’evoluzione della tecnica, a scrivere saggi di discreta lunghezza. Questa è la differenza chiave. A mio avviso l’ideale è un mix dei due sistemi: da una parte la possibilità di avere dei dati aggiornati in tempo reale ed estratti per pertinenza rispetto a ciò che richiedo come utente, dall’altra la loro elaborazione capace di generare una risposta con un tono e un linguaggio naturale. Il fatto è che per addestrare questi modelli generativi servono potenze di calcolo enormi, di qui l’impossibilità di aggiornarli in tempo reale. Ecco perché immagino che si andrà verso una soluzione ibrida.
Oltre al text-to-text questi algoritmi permettono di trasformare un testo in un’immagine o in un video.
Sì, anche qui Open Ai ha nei mesi scorsi presentato Dall-E 2, un sistema che a partire da poche parole crea immagini di ottima fattura e apparente creatività, al punto che un quadro creato così ha persino vinto un importante concorso di pittura nel Colorado, stracciando pittori in carne e ossa. Ma sulla stessa linea operano software come Midjourney o Stable diffusion: text-to-image, dal testo all’immagine. Big tech come Meta o Google hanno poi lanciato programmi per trasformare una richiesta testuale in un video, text to video: io descrivo le caratteristiche di ciò che vorrei vedere e l’algoritmo produce una sequenza sulla base delle mie indicazioni. Lo scorso anno un cortometraggio realizzato da un’intelligenza artificiale ha vinto un premio al Festival del cinema di Cannes. E questo è straordinario per capire il livello raggiunto da questi strumenti. Inoltre, è anche possibile il contrario: ossia, a partire da un audio, una foto o un video, si possono generare testi che ne riportino i contenuti. O ancora a partire da un audio è possibile crearne un altro, audio-to-audio: in questi giorni per esempio Microsoft ha lanciato Vall-E, un software in grado di campionare una qualsiasi voce umana in appena tre secondi e riprodurla in modo artificiale facendole pronunciare un discorso scritto magari da qualcun altro. Soluzione ideale magari nel campo del doppiaggio cinematografico o nel mondo creativo, ma con parecchie incognite da tenere d’occhio su tutto il resto: che uso verrà fatto della mia voce se a un estraneo bastano pochi secondi di registrazione per farne un utilizzo illegale?
Con un comando scritto puoi anche chiedere al programma di generare un codice software.
Sì, è possibile, sempre con ChatGpt. Anche se, ricordiamo, l’obiettivo di questi sistemi non è sostituire le persone ma è dare degli strumenti che facciano risparmiare del tempo e liberare dai compiti ripetitivi minuti preziosi per attività più complesse e più creative.
Quali sono le applicazioni che le aziende, incluse quelle bancarie, possono fare di questi nuovi strumenti?
Diciamo che di applicazioni professionali già ne esistono diverse. Ad esempio, una delle più note è quella dell'assistenza alla scrittura: mentre tu scrivi, questi sistemi ti affiancano una sorta di collaboratore virtuale che espande i tuoi concetti e analizza le fonti. E questo è un aiuto enorme per numerosissimi lavori. Poi ci sono applicazioni che eseguono una ricerca dentro gli archivi, riassumono quanto hanno raccolto, trasformano dati complessi e tabelle in linguaggio naturale, rendendo i dati stessi più aperti, e in qualche modo più democratici. Anche con la mia azienda stiamo creando servizi collegandoci con le Api ad Open Ai: possiamo già trasformare dati tecnici in testo o trascrivere per iscritto il contenuto di un video su YouTube lungo anche ore, con la possibilità di crearne una scaletta o un riassunto. Tutto in automatico. Immaginiamo una persona che deve vedersi dieci video per realizzare un rapporto: grazie a questo modello può selezionare le sequenze utili con un enorme risparmio di tempo. Poi abbiamo applicazioni per lo sviluppo di codice che permettono al programmatore di iniziare qualcosa e ricevere subito suggerimenti e idee per continuare, senza fare troppe ricerche. E ancora in generale l’algoritmo generativo è utile per raccogliere una prima base di informazioni o per ispirare idee, titoli, spunti. Insomma, ti lascia più tempo per il pensiero.
Vediamo però i problemi. Un rischio è quello che, anziché fare noi un controllo e una sintesi tra i tanti risultati che ci offre Google, finiremo per fidarci di quel risultato finale già confezionato che ci pone l’algoritmo. Che però può essere imperfetto, manipolato, arbitrario…
Dipende da come lo interpreteremo. Io ne parlo sempre come strumento da usare non per produrre in autonomia dei contenuti ma per integrarlo nei flussi di produzione. In pratica ci sono alcune fasi dei flussi che vengono accorciate grazie a questi sistemi, però le fasi rimangono le stesse. Quindi tutto il tempo che ho risparmiato deve essere investito nell’innalzamento della qualità. Se questo sarà l’utilizzo la qualità media del nostro lavoro crescerà, se invece l’algoritmo generativo diventa una scorciatoia per distribuire più immondizia online sarà un gran problema.
E un gran problema su cui il mondo finanziario dovrà fare molta attenzione è quello delle manipolazioni. Questi strumenti simulano testi, voci e immagini perfettamente scambiabili con quelli umani. Come proteggersi da truffe e furti di identità?
Questo è un tema apertissimo perché chiaramente siamo in presenza di strumenti iperpotenti che estendono le nostre capacità. Purtroppo, nel digitale, la parte normativa arriva in genere molto dopo rispetto alla tecnologia. Bisogna quindi velocizzare sia il varo di nuove regole sia le contromisure informatiche per smascherare gli inganni. Ad esempio, OpenAi ha già dichiarato che stanno realizzando una filigrana, ovvero un codice in cui si potrà capire con certezza quali testi sono stati scritti attraverso i loro algoritmi.
Infine c’è la questione dell'occupazione, visto che questi algoritmi generativi sono in grado di eseguire molte mansioni in modo accurato, veloce e senza interruzioni. Le nuove professioni che si verranno a creare compenseranno quelle che verranno erose da queste tecnologie?
C’è un paradosso che riguarda sempre l’innovazione: questi algoritmi riducono i divari tecnologici e quindi alzano l'attenzione verso le soft skill, ossia tutte le competenze umane che non sono replicabili dalla macchina, come l'immaginazione, la creatività o la strategia. Quindi io credo che queste capacità trasversali, unite all’opera degli algoritmi, saranno alla base delle aziende del futuro, quelle capaci di guardare avanti. Di sicuro, come avvenuto in tutte le rivoluzioni tecnologiche del passato, molte nuove mansioni andranno a riorganizzare il mondo del lavoro. E alla fine copriranno quelle che verranno sostituite. Il problema è che la velocità dei cambiamenti alla quale stiamo assistendo è talmente elevata che le istituzioni dovranno gestire questo passaggio con interventi formativi ed economici adeguati. In modo da garantire una transizione senza conflitti sociali. Sono ottimista, però. In fondo oggi la vera difficoltà è quella di trovare persone competenti. La stessa Open Ai non riesce ad assumere tutte le figure di cui avrebbe bisogno. Dobbiamo ancora formarle.