ōmega #4 / È possibile dare i nostri valori all’intelligenza artificiale?
Il giornalista Andrea Daniele Signorelli, primo ospite della nostra newsletter, ci parla di AI e valori.
Benvenuti alla newsletter #4 di ōmega, un progetto a cura di Roberto Pizzato e Cesare Alemanni. Scriviamo di intelligenza artificiale e dei suoi riflessi sulla società.
In questo numero trovate il contributo del nostro primo ospite, Andrea Signorelli. Giornalista freelance, si occupa del rapporto tra nuove tecnologie, politica e società. Scrive per Domani, Wired, Repubblica, Il Tascabile e altri. È autore del podcast “Crash - La chiave per il digitale”.
Vi ricordiamo che ōmega è anche un podcast e una pagina Instagram – via email ci trovate all’indirizzo rivista.omega@gmail.com.
Non c’è bisogno di scomodare il fantascientifico “rischio estinzione” – innescato da una “superintelligenza artificiale” sfuggita al controllo dell’essere umano – per capire perché dotare gli algoritmi di un’autonomia sempre maggiore potrebbe rappresentare, in alcune circostanze, un pericolo.
Il caso più realistico, e presente, è legato alle armi autonome (già impiegate in vari teatri di guerra, tra cui Libia, Ucraina e Gaza): al momento, questi sistemi bellici possono infatti individuare e colpire, senza attendere il comando dell’essere umano, il bersaglio che gli è stato fornito, ma non sono in grado di valutare gli aspetti etici che invece (auspicabilmente) prenderebbe in considerazione un soldato umano, decidendo per esempio di non portare a termine la sua missione se ci fosse un rischio elevato di fare vittime civili.
Altri casi teorici, solo a titolo di esempio, potrebbero riguardare un robot del futuro che compie un gesto inconsulto dopo aver ricevuto il comando di “prendere la mano di un bambino” o un helpful agent (software che ci assistono nell’organizzazione e svolgimento delle attività professionali) che fa tabula rasa di quanto contenuto nel nostro computer dopo aver ricevuto il comando di “cancellare tutto”, senza specificare a cosa ci stessimo riferendo.
Si tratta di situazioni improbabili, che il filosofo Nick Bostrom ha portato alle estreme conseguenze con il suo celebre paradosso delle graffette, in cui un’intelligenza artificiale distrugge l’intero pianeta per obbedire all’ordine di produrre il maggior numero possibile di graffette.
“Vogliamo che le macchine facciano ciò che intendiamo, non ciò che letteralmente abbiamo detto”,
ha spiegato la docente di Complessità Melanie Mitchell.
Per riuscire in questa impresa è però necessario che le intelligenze artificiali si orientino senza difficoltà tra le mille ambiguità del linguaggio umano, che comprendano il contesto all’interno del quale viene dato un comando, che abbiano dei vincoli da rispettare (per esempio, non distruggere l’intero pianeta per produrre graffette) e che non si limitino, come invece fanno oggi, a “massimizzare la funzione obiettivo” (ovvero a portare a termine il compito che gli è stato dato nel modo più efficiente possibile).
La soluzione a questo problema – che, come vedremo, non tutti gli esperti ritengono tale – potrebbe passare dal cosiddetto “AI Alignment”: l’allineamento dell’intelligenza artificiale con i valori dell’essere umano, affinché capisca quando è il caso di bilanciare gli obiettivi che le sono stati dati con i valori etici, riducendo in questo modo il rischio di commettere gravi errori a causa di un’errata interpretazione o di una scarsa attenzione al contesto.
A che punto siamo di questo lavoro? Potremmo considerare ChatGPT uno strumento dotato di una qualche forma di etica?
“Non direi che ChatGPT sia allineato”
ha spiegato a Spectrum Jan Leike, ex responsabile etico di OpenAI.
“Non penso però che l’allineamento sia binario, che qualcosa possa essere allineato oppure no. Penso che sia uno spettro che va dai sistemi che non sono per niente allineati a quelli che sono pienamente allineati. Per quanto riguarda ChatGPT ci troviamo ancora nel mezzo: spesso può essere molto utile, ma spesso si rivela gravemente disallineato. Può subire dei jailbreak (quando si aggirano i sistemi di sicurezza tramite particolari formule lessicali o informatiche, ndA) ed è vittima di allucinazioni. E a volte ha dei pregiudizi che non ci piacciono. C’è ancora molto da fare”.
JAILBREAK: (letteralmente "evasione") è un termine che indica una procedura che rimuove le restrizioni software imposte da un sistema informatico.
ALLUCINAZIONE DELL’INTELLIGENZA ARTIFICIALE: un risultato errato o fuorviante generato da un modello di intelligenza artificiale.
Di metodi per integrare i valori umani nelle macchine ne sono stati finora teorizzati – e sperimentati – parecchi. Alcuni ricercatori hanno tentato di integrare i principi della filosofia morale nelle macchine o di addestrare dei Large Language Model utilizzando un vasto corpus di giudizi etici, senza però ottenere fino a questo momento risultati soddisfacenti.
Alcuni metodi più legati a tecniche specifiche di addestramento potrebbero fornire risultati migliori. Il primo porta il nome di “apprendimento per rinforzo inverso”: a differenza del classico addestramento tramite rinforzo, questo metodo non prevede di fornire alla macchina un obiettivo da massimizzare a tutti i costi, ma di analizzare invece come gli esseri umani portano a termine i loro compiti, deducendo dal loro comportamento quale sia il modo migliore per farlo. È una tecnica che è già stata impiegata, per esempio, per addestrare le auto a guida autonoma o per insegnare alle intelligenze artificiali a giocare ai videogames correttamente (senza limitarsi a sfruttare a loro vantaggio tutti i bug che scovano).
Non troppo dissimile è il metodo che sta invece venendo sperimentato all’interno di OpenAI e chiamato “apprendimento per rinforzo da feedback umano”. In linea di massima, questa tecnica prevede di chiedere a un sistema come ChatGPT di portare a termine una mansione in svariati modi e poi di farli analizzare a un essere umano, che ha il compito di indicare alla macchina quale sia il migliore o il più corretto.
“Ciò però presuppone che la persona coinvolta sappia esattamente come portare a termine il compito in questione e quali siano le risposte migliori”,
ha dichiarato sempre Jan Leike.
“Ciò è vero oggi nella maggior parte dei casi, mano a mano che questi sistemi diventano capaci di portare a termine compiti più difficili sarà però più difficile valutarli”.
Questa, in realtà, è soltanto la punta dell’iceberg degli aspetti problematici e delle criticità sollevate dall’allineamento delle intelligenze artificiali:
“Penso che le sfide più complesse siano legate all’identificazione dei valori che vogliamo fornire ai modelli di intelligenza artificiale, i loro possibili conflitti e in modo particolare come affrontare la loro evoluzione nel tempo, perché la società non è un’entità statica, ma cambia in continuazione”
ha spiegato Giada Pistilli, responsabile etica della piattaforma open source Hugging Face.
I valori, ovviamente, non cambiano solo nel tempo, ma anche nello spazio. La dichiarazione di OpenAI secondo cui l’intelligenza artificiale debba essere “un’estensione della volontà individuale umana, distribuita il più ampiamente ed equamente possibile nello spirito della libertà” è probabilmente condivisibile, almeno superficialmente, da gran parte del mondo Occidentale, ma l’accento posto su individualismo e libertà sarebbe ben poco apprezzato in moltissime altre parti del mondo.
E infatti in Cina una legge proposta dalla Cyberspace Administration of China prevede che le intelligenze artificiali debbano integrare
“i valori fondanti del socialismo e non debbano generare alcun contenuto che possa sovvertire il potere dello stato, auspicare il rovesciamento del sistema socialista o incitare la divisione della nazione”.
La situazione si complica ulteriormente se pensiamo a quanto siano frammentate, dal punto di vista valoriale (e non solo), perfino delle macro-aree geografiche che solitamente consideriamo un tutt’uno (come può essere “l’Occidente”). L’ultimo ad aver esplicitato, dal punto di vista tecnologico, questo aspetto è stato Arthur Mensch, fondatore della francese Mistral (società di LLM che ha ricevuto una valutazione da 5,8 miliardi di dollari):
“Questi modelli producono contenuti che danno forma alla nostra comprensione culturale del mondo. E, come sappiamo, i valori della Francia e quelli degli Stati Uniti differiscono in modo sottile ma importante”
ha affermato Mensch durante una conferenza.
In poche parole, se già adesso l’assoluta prevalenza di sistemi statunitensi rischia di avere serie ripercussioni dal punto di vista socioculturale, questa sorta di colonialismo digitale non potrebbe che peggiorare qualora gli algoritmi dovessero iniziare a influenzare direttamente anche la sfera etica e valoriale (magari sostenendo che acquistare armi sia un “diritto inalienabile” o propugnando un individualismo sfrenato).
E quindi? Dobbiamo forse sviluppare intelligenze artificiali specifiche per ogni area geografica culturalmente omogenea? Potrebbe non essere una soluzione assurda:
“Se un’azione intrapresa da un sistema di intelligenza artificiale riguarda soltanto il popolo cinese, la sua decisione rifletterà i loro (presunti) valori comunitari; mentre se un’azione riguarda soltanto gli americani, la sua scelta rifletterà il loro (presunto) individualismo. Se una decisione riguarda entrambi e le loro conflittuali preferenze, ci sarà bisogno di compromessi, e questo sia che una decisione sia presa da una AI, dalle Nazioni Unite, da Microsoft o da Dio”
ha detto Stuart Russell, responsabile del Center for Human-Compatible AI dell’università di Berkeley.
È però lo stesso Stuart Russell – che di questo problema si occupa da anni e l’ha affrontato nel saggio del 2019 “Human Compatible: Artificial Intelligence and the Problem of Control” – a specificare come parlare di “valori” in riferimento alle intelligenze artificiali potrebbe essere una pericolosa ed eccessiva semplificazione: “Inserire i valori nelle AI è esattamente il tipo di errore che penso dovremmo evitare, perché replicare i valori in maniera precisa è estremamente difficile”.
Per questa ragione, Russell propone di sostituire il termine “valori” con “preferenze”:
“Non si tratta di moralità, ma di insegnare alle macchine a prevedere meglio, per ogni persona, quale vita questa persona preferirebbe, il tutto essendo consapevoli che le previsioni possono essere altamente incerte e incomplete. In linea di principio, una macchina può imparare miliardi di modelli di preferenze differenti, uno per ogni persona della Terra”.
In poche parole, secondo Russell non si tratta di fornire valori alle macchine, ma di insegnare loro a interpretare correttamente le nostre preferenze (purché legali e non nocive per terzi), per evitare che fraintendano i comandi senza tirare in mezzo questioni morali o etiche che potrebbero essere per sempre fuori dalla portata di strumenti che agiscono esclusivamente per via statistica.
Che si parli di valori o di preferenze, l’obiettivo dell’allineamento è comunque lo stesso: evitare che le intelligenze artificiali interpretino erroneamente i nostri comandi con conseguenze che potrebbero essere anche molto gravi, se davvero cederemo loro un potere decisionale sempre maggiore.
Non tutti sono però d’accordo con questo approccio. Un pioniere dell’intelligenza artificiale come Yann LeCun (oggi chief AI scientist di Meta) ritiene per esempio che il problema dell’allineamento non sia risolvibile: “Non si può ‘risolvere’ il problema della sicurezza nemmeno per quanto riguarda le macchine, i razzi, i jet o le società umane. Si tratta sempre di un processo di raffinazione continua e iterativa”, ha twittato LeCun nel luglio scorso.
Una prospettiva che ci aiuta anche a equiparare i sistemi di intelligenza artificiale ad altri strumenti tecnologici invece che a una sorta di entità onnipotente – e che viene condivisa da Giada Pistilli di HuggingFace:
“Non possiamo ‘risolvere’ la complessità dei valori umani, la loro malleabilità e a volte anche le loro contraddizioni. Penso che falliremo sempre se l’obiettivo è riprodurre o sintetizzare tutto ciò in uno o più modelli. Suggerire soluzioni ingegneristiche ai problemi sociali non ha mai funzionato, perché noi esseri umani, per fortuna, siamo più complessi di una tabella delle funzioni o di una serie di pattern”.
Andrea Daniele Signorelli è stato ospite del nostro podcast anche lo scorso ottobre, per una chiaccherata sull’hype che circonda l’intelligenza artificiale.
Se non l’avete già fatto, potete iscrivervi al link qui sotto. Per questa settimana è tutto, alla prossima!