L'IA a rischio collasso con la rete invasa dai suoi stessi contenuti

Rischio collasso per le Intelligenze Artificiali generative , come ChatGpt: a soffocarle potrebbero essere gli stessi contenuti che generano , capaci di inquinare in modo grave la base di dati usata per addestrarle . A sollevare il problema di un pericoloso effetto a spirale, dove le IA vanno a imparare nuove informazioni usando i contenuti prodotte da loro stesse in un circolo vizioso, è lo studio guidato da Ilia Shumailov, dell'Università di Oxford e pubblicato sulla rivista Nature.

"E' uno studio che in realtà conferma , in modo molto puntuale, delle preoccupazioni 'antiche' , ossia c he si hanno sin dalla nascita dei modelli generativi , gli Llm", ha detto all'ANSA Viviana Patti, esperta di Computer science dell'Università di Torino.
Ormai le IA generative sono sempre più diffuse, a partire da ChatGpt sono rapidamente arrivati una decina di altri modelli molto diffusi capaci di produrre in pochi istanti contenuti di ogni tipo, dai testi alle foto e i video, e internet si sta rapidamente popolando di contenuti fatti proprio da algoritmi.

Fino a pochi anni fa internet poteva essere considerato un calderone di contenuti di ogni tipo, credibili e non, ma tutti caratterizzati da un elemento comune : erano prodotti da esseri umani . Ora non è più così , e potrebbe esserlo sempre meno, inducendo un cambiamento che potrebbe comportare un problema non da poco. Le IA imparano infatti sulla base di materiali, testi o foto, che gli si mette a disposizione e su cui vengono addestrati, e finora erano contenuti generalmente prodotti da umani, ad esempio le pagine di Wikipedia o set di fotografie di animali, ma ora che la rete si sta popolando di contenuti creati dalle IA potrebbe cambiare la qualità di quel che le IA stesse imparano.

Per analizzare il problema i ricercatori britannici hanno addestrato una IA con materiali prodotti dalla stessa IA e poi usato nuovamente i nuovi materiali prodotti per addestrare un modello di IA , in modo ciclico. Hanno facilmente verificato un peggioramento delle qualità delle IA ad ogni generazione, ad esempio con la produzione di testi con molte frasi ripetute, fino a raggiungere un vero e proprio collasso, ad esempio perdendo completamente la capacità di distinguere gli oggetti, come una chiesa da una lepre.

"Lo studio - sottolinea Patti - dovrebbe essere un richiamo alla comunità affinché si faccia uno sforzo coordinato per garantire una maggiore trasparenza sull'uso dei dati usati per l'addestramento. E in qualche modo capire che occorrerebbe passare dalla corsa alla quantità , fatta finora, a una ricerca di qualità dei dati usati per l'addestramento".

"Il problema sollevato dallo studio è anche più generale perché è valido anche al di fuori dei modelli linguistici", ha aggiunto Valentina Colla, della Scuola Superiore Sant'Anna e che si occupa di applicazioni di IA nei processi industriali. "In tutti i modelli di IA la scarsa affidabilità dei dati ti porta a un crollo delle performance. Non è un caso - ha aggiunto Colla - che spesso la gran parte del nostro lavoro è dedicato alla verifica della qualità dei dati in funzione dello scopo prefisso".

© RIPRODUZIONE RISERVATA