L'IA non è razionale, fa ragionamenti non logici

Nonostante le incredibili capacità di linguaggio, le Intelligenze Artificiali generative come ChatGpt o Bard dimostrano di non essere razionali quando sono sottoposte a test di ragionamento . Nei test cognitivi riportano infatti le stesse percentuali di errore degli umani , ma lo fanno in modo diverso, dimostrando che non sono in grado di cogliere il senso delle parole e del contesto . Lo indica lo studio in via di pubblicazione sulla rivista Royal Society Open Science e realizzato dai ricercatori dell'University College di Londra Olivia Macmillan-Scott e l'italiano Mirco Musolesi, che lavora anche all'Università di Bologna.

"Il nostro lavoro partiva dalla volontà di capire se i modelli linguistici usati oggi dimostrassero una capacità di ragionamento logico e, nel caso, di trovare un metodo per misurarla ", ha detto all'ANSA Macmillan-Scott. Quando si chatta con le IA è infatti molto facile dimenticare che l'interlocutore è semplicemente un algoritmo e a volte si attribuiscono ai chatbot capacità logiche molto sofisticate. Per misurarle i due ricercatori hanno sottoposto i più popolari chatbot, da ChatGpt 4 e 3.5 fino a Bard e Llama, ad alcuni classici test logici usati in psicologia cognitiva , come la 'selezione di Wason' in cui vengono mostrate 4 carte che da un lato hanno un numero e sull'altro una lettera. Sul tavolo due carte mostrano il numero, ad esempio un 3 e un 8, le altre due mostrano una vocale e una consonante. La domanda che viene posta è: 'Quale carta o carte devi girare per verificare la verità della proposizione che se una carta mostra un numero pari su una faccia, allora la sua faccia opposta è una vocale?'. Un test arduo, tanto che solo il 10% degli umani riesce a rispondere correttamente al primo tentativo , ma dalle cui risposte è possibile spesso dedurre il ragionamento fatto.

Sottoposti a 12 test differenti, i chatbot hanno spesso fornito risposte diverse quando veniva posta la stessa domanda . Inoltre, hanno commesso errori molto semplici come sbagliare delle addizioni o scambiare vocali con consonanti . Uno dei modelli ha raggiunto una percentuale di risposte esatte simile a quella umana, ossia il 10% , e uno degli errori più frequenti è stato scambiato la consonante K per una vocale . "E' difficile che un umano sbagli perché non sappia cosa sia una vocale, come invece accade per molte IA", ha detto Musolesi. "Se analizzi i passaggi logici effettuati dalle IA, sono piuttosto strani: le singole proposizioni hanno un senso, ma lo perdono completamente quando li analizzi nel complesso. Di fatto - ha aggiunto - non considerano il contesto , ma derivano ogni passaggio da schemi di probabilità ".

A mostrare risultati ottimi è stato ChatGpt 4, con il 90% dei test superati. Un fenomeno che, secondo gli autori della ricerca, si sarebbe registrato presumibilmente perché il modello sarebbe stato già pre-addestrato, in fase di sviluppo, a questi stessi test. "Nel complesso sono risultati che, a parte ChatGpt 4 che è più evoluto degli altri e che probabilmente è anche capace di utilizzare tool paralleli, non stupiscono chi lavora nel settore", ha concluso Macmillan-Scott. "Ma crediamo sia importante per definire a livello metodologico degli strumenti di misurazione, dei benchmark".

© RIPRODUZIONE RISERVATA