Se l’IA è stata progettata per sembrare quanto più umana possibile, dobbiamo ammettere che il processo di apprendimento e le informazioni ricevute nel corso del tempo possono plasmarne il “cervello”, portando Intelligenze Artificiali diverse a fornire risposte contrapposte alle stesse domande.
Più o meno tutti sappiamo che OpenAI, Google e Meta utilizzano enormi quantità di dati provenienti dal web per il training dei propri chatbot, ma spesso le nostre conoscenze si fermano qui – anche perché le aziende stesse non condividono dati più approfonditi, temendo che essi possano avvantaggiare la concorrenza. Eppure, l’esperienza umana ci dimostra chiaramente che gli anni trascorsi tra i banchi di scuola influenzano chi siamo anche da adulti. Lo stesso vale anche per l’IA: per questo, è importante capire cosa contengono i giganteschi dataset utilizzati dalle Big Tech delle Silicon Valley e perché siano diventati una delle questioni più spinose nel dibattito politico-tecnologico degli ultimi mesi.
Il Machine Learning: come impara l’Intelligenza Artificiale
Prima di addentrarci nel mondo dei dataset, poniamoci un’altra domanda: come fa l’IA a imparare? In altre parole, qual è il processo che permette ai Large Language Model (LLM), ovvero ai modelli linguistici alla base dei chatbot come ChatGPT e Copilot, di trasformare una marea di dati in un bagaglio culturale di informazioni organizzate? Un interessante articolo del MIT, pubblicato nel 2021, spiega cos’è il Machine Learning, cioè il sistema di apprendimento alla base dell’IA. Per la verità, il Machine Learning non è solo il metodo di “insegnamento” utilizzato da OpenAI, Google e Microsoft per i loro bot, ma è anche la procedura che – tra le altre cose – permette a Netflix di imparare dai vostri gusti per consigliarvi nuovi show e ad Amazon di indicare quale prodotto potreste voler acquistare dopo aver dato un’occhiata alla vostra cronologia di navigazione.
Il Machine Learning è ben diverso dalla programmazione tradizionale. Quest’ultima è piuttosto simile alla pasticceria, per certi versi: per creare una torta perfetta è necessario seguire pedissequamente una ricetta ben chiara e avere degli ingredienti specifici, nelle giuste dosi. La programmazione, di fatto, è proprio questo: fornire una serie di istruzioni e di dati estremamente precisi a un software e spiegargli come combinarli tra loro per ottenere il risultato desiderato.
Il Machine Learning è più simile a ciò che succede quando arrivate a casa dopo una giornata di lavoro e dovete cucinare la cena con quello che avete nel frigorifero. Prima di aprire lo sportello non sapete quali ingredienti avete a disposizione, né avete in mente una ricetta per combinarli perfettamente. Solo dopo aver dato un’occhiata a ciò che è rimasto in casa decidete cosa usare, cosa no, come cuocere ogni materia prima, come impiattarla e così via. Il Machine Learning insegna all’IA a fare esattamente questo, ovvero a creare delle ricette nuove a partire da ingredienti sempre diversi. La differenza rispetto al caso del frigorifero è che, mentre quest’ultimo è spesso e volentieri semivuoto, gli “ingredienti” (ovvero le informazioni, fuor di metafora) a disposizione dell’Intelligenza Artificiale sono miliardi.
Di fatto, il Machine Learning è una tipologia di programmazione che serve per insegnare a un software a combinare tra loro le informazioni che possiede in modo da creare una risposta soddisfacente. Il risultato, ovviamente, dipende da due elementi, ovvero la qualità (e la quantità) delle informazioni e quella del processo di combinazione. Delle informazioni parleremo tra poco, quando analizzeremo i dataset: per ora, invece, è necessario occuparci del processo di combinazione tra queste ultime.
L’IA gestisce le informazioni in modo probabilistico. Benché, ad uno sguardo superficiale, ChatGPT sembri pensare come un essere umano, in realtà le cose stanno ben diversamente: il “cervello” dell’Intelligenza Artificiale non utilizza la stessa logica di quello umano, ma si basa su calcoli statistici. Man mano che l’IA processa una quantità sempre maggiore di dati, essa cerca pattern ricorrenti al loro interno: nel caso di ChatGPT, per esempio, più due parole appaiono una di seguito all’altra nelle informazioni apprese dal LLM di OpenAI e più il chatbot tenderà a riportarle a sua volta in sequenza.
Facciamo un esempio pratico e pensiamo a un LLM specializzato nella produzione di menù per pizzerie. Il training di quest’ultimo avverrà sulla base di migliaia e migliaia di menù di altri ristoranti provenienti da tutto il mondo: possiamo aspettarci che, chiedendo a un chatbot basato su questo modello linguistico quale sia la pizza più buona di tutte, quest’ultimo ci risponderà che si tratta della Margherita, che è presente sul listino di ogni pizzeria del pianeta. È invece molto meno probabile che il chatbot ci fornisca una combinazione di ingredienti più esotica, poiché la frequenza con cui essa appare nei menù analizzati è molto più bassa di quella dei gusti “evergreen”. In linea di massima, ciò significa che un’Intelligenza Artificiale con più dati è più accurata e affidabile nelle sue risposte. Sorprende, allora, che giusto un paio di settimane fa l’IA di Google abbia consigliato di mettere della colla sulla pizza per renderla più “formaggiosa”. Ma in quante pizzerie del mondo si usa la colla come ingrediente?
Quantità e qualità: il problema del diritto d’autore
L’IA prende ancora tantissimi granchi: quello della pizza con la colla è forse il più divertente (e innocuo) di tutti. Qualche mese fa, però, Google ha dovuto mettere in pausa il suo servizio di generazione di immagini tramite IA perché quest’ultimo aveva generato dei soldati nazisti con la pelle nera, in barba alla verità storica. Talvolta, questi problemi sono legati alla programmazione dei sistemi di Machine Learning: nel caso delle controverse immagini di Gemini, per esempio, era stata la stessa Big G a implementare un “bias” in favore delle persone nere per bilanciare l’enorme mole di fotografie storiche di bianchi presenti in rete, a fronte di un numero scarsissimo di scatti d’epoca che ritraevano persone afrodiscendenti. In altri casi, invece, la causa delle cantonate dei chatbot va ricercata nei dataset utilizzati dalle aziende che li hanno addestrati: un dataset troppo piccolo fornisce risultati inconsistenti (la colla sulla pizza, per esempio), mentre un dataset “di parte” rischia di portare a risultati falsati, magari in favore di una dottrina politica, ideologica o religiosa.
Oggi come oggi, OpenAI permette ai suoi utenti di creare i cosiddetti GPTs, ovvero dei LLM “fatti in casa” con dei dataset realizzati ad hoc per le necessità di ciascuno: si tratta di uno strumento particolarmente utile per le aziende, che possono dare in pasto all’IA i loro manuali di istruzioni e le loro procedure di assistenza clienti per demandare il customer care alle Intelligenze Artificiali, anziché pagare degli operatori umani. Il rovescio della medaglia, ovviamente, è che chiunque può creare la sua versione di ChatGPT per i fini più disparati: a gennaio, per esempio, qualcuno ha creato un chatbot capace di impersonare Joe Biden e lo ha usato per telefonare agli elettori americani, invitandoli a non votare alle primarie del Partito Democratico – prefigurando ciò che potrebbe accadere in occasione delle elezioni presidenziali di questo novembre. In altre parole, un chatbot è tanto più affidabile quante più sono le informazioni che possiede, e quanto più queste ultime sono di qualità.
Per risolvere il problema della quantità, OpenAI, Google e Meta hanno messo in atto una procedura piuttosto controversa, chiamata data scraping: le grandi aziende della Silicon Valley hanno programmato dei software automatizzati che ogni giorno scandagliano internet, recuperano informazioni di ogni tipo e le forniscono ai Large Language Model.
Il problema di questo sistema è che nel calderone di ChatGPT & co. finiscono anche pagine web protette da copyright, come gli articoli dei giornali, le versioni digitali dei libri e le opere d’arte degli artisti internazionali. Per questo motivo, a fine dicembre il New York Times ha fatto causa a OpenAI e Microsoft per l’uso improprio dei suoi articoli di giornale per il training di ChatGPT e Copilot: entrambe le aziende hanno tentato di risolvere la situazione promettendo grosse cifre al quotidiano americano in cambio del libero accesso ai suoi pezzi, ottenendo una risposta che definire “tiepida” sarebbe un eufemismo. Però ci hanno provato anche con altre testate più piccole, che, nel pieno di una crisi generalizzata e protratta per il mondo dell’editoria, potrebbero presto cedere ai soldi facili promessi dalla Silicon Valley.
Le procedure di data scraping, in generale, creano dei dataset enormi ma poco organizzati, in cui rientrano informazioni di ogni tipo e senza grandi controlli: la quantità c’è, ma spesso è la qualità che manca. E questo spiega, almeno in parte, perché le IA sbagliano.
… E se l’IA diventasse fascista?
Per ovviare al problema qualitativo – oltre che per legittimare il data scraping stesso e per ampliare ulteriormente le dimensioni dei propri dataset – OpenAI, Microsoft e Google hanno deciso di stipulare delle partnership con altre grandi aziende che possiedono grandi quantità di contenuti online. La mossa si è resa necessaria anche perché, dopo un biennio di scraping senza freni, molti siti web hanno iniziato a prendere delle contromisure: ora, le Big Tech rischiano di trovarsi senza nuove informazioni per i loro bot e di dover fronteggiare una pletora di cause legali in tutto il mondo, sulla falsariga di quella del New York Times.
Le aziende che già possiedono dei database enormi, come Meta, hanno risposto chiudendosi a riccio: per esempio, lo scraping dei dati degli utenti di Facebook e Instagram va avanti ormai da qualche settimana, specie nel campo delle immagini e dei video. Altre compagnie, a partire da OpenAI, hanno invece cercato di stringere nuove partnership con siti web terzi. A metà maggio, OpenAI si è accordata con Reddit per permettere ai propri bot di raccogliere i dati degli utenti della piattaforma social, in cambio dell’inclusione di alcune funzionalità basate sull’IA e su ChatGPT per gli iscritti a Reddit (e, con ogni probabilità, di una bella quantità di denaro finita direttamente nelle casse del social network americano). Analogamente, anche Google ha stretto una partnership con Reddit a febbraio.
Tuttavia, Reddit è un social network collegato all’estrema destra. Sia chiaro: i subreddit moderati, legati a contenuti informativi e di intrattenimento, sono la grandissima maggioranza della piattaforma. Tuttavia, il social è diventato noto per la sua comunità estremista molto attiva negli ultimi anni, specie dopo la chiusura totale o parziale di piattaforme come 4chan, 8chan e Twitter rispetto ai contenuti politici controversi.
Gli articoli accademici che puntano il dito contro Reddit per la crescita dell’estremismo di destra, del neofascismo e del neonazismo negli Stati Uniti sono numerosi, mentre nel 2019 un approfondimento di Fast Company spiegava come la piattaforma avesse “convertito” all’alt-right (la nuova destra radicale americana) un utente di soli tredici anni. Non c’è dubbio che le comunità estremiste di Reddit siano poche. Il problema è che sono molto attive. In un sistema di apprendimento su basi statistiche come quello del Machine Learning, non è il numero di utenti a contare, ma la quantità di post, di risposte e di commenti. E le comunità della far-right americana ne generano tantissimi, che finiscono tutti in pasto all’IA. Utilizzando Reddit per il training di ChatGPT e Gemini, OpenAI e Google espongono i loro utenti alle ideologie estremiste e fondamentaliste.
Qui sta il nodo della qualità dell’IA: quali contenuti andrebbero “insegnati” ai LLM? La risposta devono darla le singole aziende: per esempio, l’IA Grok di Elon Musk non si fa troppi problemi a insultare chi la utilizza, talvolta usando parole molto forti. Ma per chi l’ha sviluppata non si tratta di un problema, bensì di una difesa totale del diritto di free speech, che passa anche per l’ironia più tagliente (se non per l’aperto razzismo). Resta invece da capire da che parte della barricata vogliano stare i pezzi grossi come Google, Microsoft e OpenAI.