93FE310D-CB37-4670-9E7A-E60EDBE81DAD Created with sketchtool.
< Home

OpenAI lancia o1, l’IA che “ragiona”. Ma cosa significa davvero?

Articolo. OpenAI ha lanciato lo scorso 12 settembre o1, un nuovo modello di IA che introduce il ragionamento strutturato, basato sul metodo Chain of Thought. O1 scompone problemi complessi, offrendo risposte più precise ma più lente rispetto a GPT-4o. È adatto a settori come scienza e coding, riducendo errori e bias, ma comporta maggiori costi computazionali. La nostra analisi.

Lettura 7 min.

Quello dell’Intelligenza Artificiale è un mondo che si evolve velocemente, forse fin troppo. OpenAI è al centro di questa trasformazione, nonostante i tentativi di compagnie rivali come Google e Meta di recuperare il terreno perso negli ultimi anni. Il 12 settembre, OpenAI ha presentata o1, un modello linguistico (o Large Language Model, per gli addetti ai lavori) che segna un cambio totale di paradigma rispetto ai suoi predecessori - i cosiddetti GPT, l’ultimo dei quali è GPT-4o. Le parole con cui la startup di Sam Altman ha presentato il suo nuovo modello di base per le Intelligenze Artificiali sono forti: «o1 è la prima IA capace di ragionare», ha spiegato l’azienda della Silicon Valley. A differenza dei precedenti modelli di GPT, o1 è stato programmato per “pensare” prima di rispondere, tramite un approccio di ragionamento strutturato noto come Chain of Thought (CoT) Prompting, o “scrittura dei prompt a catena di pensieri”. Ciò significa che o1 risponde meno velocemente di ChatGPT e Google Gemini, ma lo fa in maniera più pesata e, per certi versi, “intelligente”. Una rivoluzione nel mondo dell’IA? Non proprio: il nuovo modello apre tante prospettive e ha moltissime applicazioni, ma comporta anche una serie di compromessi, soprattutto in termini di velocità e di costi.

La “magia” dietro all’IA che sa ragionare

Soprannominato inizialmente con il nome in codice “Strawberry” (“Fragola”), o1 rappresenta la nuova generazione di Large Language Model ed è in grado di affrontare compiti complessi che richiedono un approccio multidisciplinare e un ragionamento profondo. Mentre i modelli precedenti eccellevano nel generare risposte rapide e coese (più o meno: gli strafalcioni dell’IA sono ben noti a tutti), o1 va oltre. Invece di rispondere immediatamente, o1 “pensa” prima di formulare ciascuna frase, scomponendo i problemi in passaggi logici sequenziali. Il processo che il nuovo modello IA utilizza per fornire le sue risposte riflette uno dei principi fondamentali del ragionamento umano: gli esseri umani, consciamente o meno, affrontano i problemi complessi suddividendoli in sotto-problemi via via sempre più semplici, e dunque più facili da analizzare.

Questa abilità di ragionamento avanzato e profondo rende o1 particolarmente adatto a risolvere problemi nel mondo matematico e nelle discipline STEM: per questo, secondo alcuni il modello di nuova generazione di OpenAI sarà particolarmente utile nell’algebra avanzata, nell’analisi scientifica e, soprattutto, nel coding, ovvero in quei settori in cui le risposte rapide e superficiali dei GPT non sono sufficienti. La stessa OpenAI, d’altro canto, parla di o1 come di un “modello progettato per affrontare problemi difficili, che richiedono un ragionamento multistadio e l’esecuzione compiti che necessitano di più tempo ma portano a risposte più accurate e meglio strutturate”.

Alla base di o1 c’è il prompting Chain of Thought (CoT), che è anche ciò che distingue il nuovo modello da tutti quelli di generazione precedente. Il CoT è una tecnica che permette all’Intelligenza Artificiale di simulare il ragionamento umano creando una catena di passaggi logici. In altre parole, anziché rispondere immediatamente a una domanda basandosi su un’analisi superficiale dei dati, o1 analizza ogni elemento del problema, costruendo un percorso logico che porta alla soluzione: si tratta di un approccio molto diverso dalle versioni di scorsa generazione di ChatGPT, le quali forniscono una risposta veloce ma superficiale, basata su un’analisi quantitativa e probabilistica dell’enorme mole di dati che si trovano nel loro database. Facciamo un esempio. Se chiedete a ChatGPT di spiegarvi perché il cielo è blu, la sua risposta sarà qualcosa di questo tipo:«Perché la luce blu è diffusa nell’atmosfera». Al contrario, o1 elaborerà una risposta partendo dai concetti fondamentali, illustrandovi il concetto di colore, il comportamento della luce e il fenomeno della diffusione, per poi spiegare come tali fattori si comportano insieme tra loro per dare al cielo la colorazione che tutti conosciamo. Questo approccio non solo migliora la qualità delle risposte, ma offre anche una maggiore trasparenza nel loro processo di elaborazione: poiché sappiamo quali ragionamenti compie l’IA e possiamo analizzarli passo per passo, possiamo anche ricostruire come essa sia giunta a una risposta anziché a un’altra, valutando se quest’ultima sia affidabile o meno.

Proprio per questo motivo, a detta di OpenAI, o1 può ridurre il tasso di allucinazioni dell’IA (ovvero la percentuale di risposte totalmente errate o inventate di sana pianta) dallo 0,61% allo 0,44%. Decimi di punto percentuale, potrebbe dire qualcuno. Eppure, si tratta di una riduzione molto significativa in termini assoluti: se consideriamo che la sola web app di ChatGPT ha fatto registrare 2,5 miliardi di utilizzi mensili a luglio 2024 (dati di Demand Sage), il salto da GPT-4o a o1 potrebbe evitare circa 4,25 milioni di allucinazioni al mese. Se consideriamo anche gli accessi a Google Gemini, quelli a Microsoft Copilot e quelli al resto delle Intelligenze Artificiali meno note (nonché quelle cinesi, il cui numero di utenti è in larga parte sconosciuto), possiamo tranquillamente pensare che in futuro i modelli “pensanti” ci salveranno da milioni di errori ogni giorno. Tutto ciò potrebbe avere un impatto davvero trasformativo nei settori dove gli sbagli sono più “pesanti” e dove l’accuratezza è fondamentale, ovvero quelli tecnico-scientifici.

I vantaggi e i limiti di o1

Uno dei vantaggi più evidenti di o1 è la sua capacità di gestire compiti complessi scomponendoli nelle loro componenti basilari. All’atto pratico, il modello potrebbe essere perfetto per quei settori in cui le soluzioni rapide non sono sufficienti e non sono richieste, ma si punta su risposte complesse, articolate e affidabili. Ciò significa che o1 non è particolarmente indicato (almeno non più di GPT-4o) per riassumere libri, scrivere testi, correggere appunti e via dicendo. Al contrario, esso dà il massimo nell’analisi dei dati e, in maniera quasi paradossale, nello sviluppo di applicativi legati al machine learning e all’Intelligenza Artificiale: in questi campi, infatti, i ricercatori potranno usare le capacità analitiche di o1 e la sua elevata affidabilità per studiare set di dati particolarmente ampi, per risolvere problemi avanzati di programmazione e per scrivere codice ottimizzato senza doversi arrovellare per giorni e giorni su problemi logico-matematici di ampia portata.

Un altro grande punto a favore di o1 è la sua capacità di gestire i bias. Fermi un attimo: che cosa sono i bias dell’Intelligenza Artificiale? In parole povere, i bias sono pregiudizi sistematici o distorsioni nelle risposte generate dai LLM. Le loro possibili cause sono numerose: essi possono derivare da un dataset di addestramento sbilanciato o pieno di informazioni sbagliate, da algoritmi scorretti o da interferenze umane nelle fasi di programmazione di allenamento dell’IA. Esistono diversi tipi di bias, da quelli razziali a quelli culturali, da quelli di genere a quelli sessuali e religiosi. I detrattori dell’IA sono convinti che i bias di ChatGPT e soci siano così pervasivi da renderli inutilizzabili. Una posizione forse fin troppo dura. Anche gli ottimisti, però, credono che sia necessario ridurne il numero per creare tecnologie più eque, giuste e, in fin dei conti, affidabili e responsabili. Ecco: o1 riduce i bias del 25%, almeno stando a quanto emerso dai test eseguiti su BBQ (Bias Benchmark Questionnaire). Ciò significa che, sebbene non sia ancora perfetto, il modello offre risposte più neutrali e corrette rispetto ai suoi predecessori. Non è tutto oro quel che luccica, però: o1, per esempio, fa ancora fatica a gestire le domande ambigue e cerca sempre di dare una risposta alle vostre richieste. «Non so» non fa parte del suo vocabolario. Un ultimo aspetto positivo del modello di ultima generazione è la sua capacità di dialogare anche nelle lingue meno diffuse, come lo Yoruba e lo Swahili: nei test eseguiti da OpenAI, il miglioramento è del 20% rispetto a GPT 4o. Poco cambia per chi lavora in inglese, francese, spagnolo o italiano: il salto in avanti potrebbe però essere sostanziale per l’adozione dell’IA nei Paesi emergenti dell’Africa e dell’Asia.

O1, insomma, ha tanti vantaggi. Ma qualche difetto resta. Il più grande - nonché l’unico, vero svantaggio del nuovo modello a confronto con i “vecchi” GPT - è la sua lentezza. Il tempo di inferenza del modello linguistico o1 (ovvero il tempo impiegato dall’IA per rispondere alle vostre domande) è superiore del 30% rispetto a quello di GPT-4o, almeno nella risoluzione dei problemi complessi. Utilizzando o1 per compiti semplici, insomma, non riscontrerete alcuna differenza rispetto ai modelli di attuale generazione. Di fronte ad equazioni matematiche, problemi di fisica e montagne di codice, invece, o1 potrebbe impiegare più tempo a trovare una soluzione, ma il risultato finale dovrebbe essere di qualità nettamente maggiore rispetto a ogni alternativa sul mercato. Un altro grosso problema è quello del “costo computazionale”, ovvero del prezzo - in termini di numero di calcoli richiesti, di utilizzo dei chip e di consumi elettrici - di ogni domanda fatta all’IA. I dati diffusi da OpenAI dicono che o1 utilizza il 10-20% di token in più di GPT-4o, il che significa che gli utenti che desiderano provare il modello di nuova generazione dovranno pagare di più e, al contempo, che i costi per l’azienda saranno maggiori: un bel problema soprattutto per le compagnie che fanno ampio uso dell’IA per i loro processi produttivi. Per concludere, un terzo, grande fattore di rischio di o1 è che esso finisca per generare risposte basate su ragionamenti plausibili ma errati: non si tratta né di bias né di allucinazioni, bensì delle cosiddette “fallacie logiche”, a causa delle quali l’IA parte da delle premesse errate e, tramite passaggi logici corretti, arriva a conclusioni a loro volta sbagliate.

Verso l’Intelligenza Artificiale Generale?

Per quanto sulla carta si tratti di uno strumento trasformativo, o1 è stato accolto in modo piuttosto tiepido dalla community, anche perché sviluppare dei prompt (dei comandi, per intenderci) per il nuovo modello sembra essere piuttosto difficile. Il successo della nuova IA verrà decretato perlopiù sul medio e lungo periodo, e tutto dipenderà dal supporto che OpenAI deciderà di darle in futuro: l’azienda, infatti, ha promesso degli aggiornamenti per incrementare la velocità e ridurre i bias del modello linguistico, ma molto probabilmente se ne riparlerà solo nel 2025.

Tuttavia, o1 ha dato notizia perché, a detta di molti osservatori, il suo lancio segna un importante passo avanti verso l’Intelligenza Artificiale Generativa, o AGI. Per definizione, un’AGI è un sistema di IA in grado di comprendere, apprendere e applicare conoscenze in una vasta gamma di contesti, in modo non dissimile a quanto farebbe un essere umano. O1 non è un semplice miglioramento delle capacità di calcolo dell’IA, come lo erano il salto da GPT-3 a GPT-3.5 o quello da GPT-4 a GPT-4o, ma è la base per un nuovo tipo di interazione uomo-macchina e per un nuovo sistema di pensiero di quest’ultima. In altre parole, il “cervello” dell’IA non si è solo ingrandito, ma ha anche cambiato completamente la sua struttura e il suo funzionamento: l’approccio Chain of Thought rappresenta un’evoluzione fondamentale nell’architettura dei LLM, consentendo loro di affrontare compiti complessi in modo più umano. Grazie a questo cambiamento paradigmatico, o1 potrebbe facilitare applicazioni più avanzate in vari settori, dalla medicina alla data science, fino all’educazione, all’informatica, all’astrofisica e alla chimica. Addirittura, l’approccio CoT potrebbe aprire la strada a un’IA capace di capire le emozioni e le intenzioni degli umani, consentendo all’Intelligenza Artificiale di rispondere in modo empatico e pertinente alle esigenze dei suoi utenti. Non siamo ancora arrivati all’AGI, questo è certo. Ma ci troviamo un passo più vicini al suo sviluppo: se si tratti di un bene o di un male, però, resta ancora tutto da capire.

Approfondimenti