Gianmarco Pondrano d'Altavilla

Addestrare le IA su dati prodotti da altre IA può creare seri problemi

(11 Luglio 2024)

Roma – Addestrare le intelligenze artificiali (IA) utilizzando dati prodotto da altre IA può portare a gravi problemi. È quanto emerge da uno studio pubblicato in preprint su arXiv. Nel giro di pochi mesi, gli strumenti di intelligenza artificiale (IA) generativa in grado di generare immagini o testo realistici hanno preso d’assalto Internet, diventando una delle tecnologie con l’adozione più rapida di sempre. Alcuni di questi strumenti di IA generativa come DALL-E, MidJourney o ChatGPT hanno ottenuto un’ampia notorietà pubblica. È interessante notare che questi strumenti sono possibili grazie all’enorme quantità di dati (testo e immagini) disponibili su Internet. Gli strumenti vengono addestrati su enormi set di dati che vengono estratti da siti Internet. E ora, questi strumenti di IA generativa stanno creando enormi quantità di nuovi dati che vengono immessi in Internet. Pertanto, le versioni future degli strumenti di IA generativa saranno addestrate con dati Internet che sono un mix di dati originali e generati dall’IA. Con il passare del tempo, un mix di dati originali e dati generati da diverse versioni di strumenti di IA popolerà Internet. “Ciò solleva alcune domande intriganti – spiegano gli autori dello studio – come si comporteranno le versioni future degli strumenti di IA generativa quando addestrate su un mix di dati reali e generati dall’IA? Si evolveranno con i nuovi set di dati o degenereranno? L’evoluzione introdurrà pregiudizi nelle generazioni successive di strumenti di IA generativa? In questo documento, esploriamo queste domande e riportiamo alcuni risultati di simulazione molto iniziali utilizzando un semplice strumento di IA di generazione di immagini”. I risultati suggeriscono che la qualità delle immagini generate si degrada man mano che vengono utilizzati più dati generati dall’IA per l’addestramento, suggerendo così che l’IA generativa potrebbe degenerare a sua volta. Sebbene questi risultati siano preliminari e non possano essere generalizzati senza ulteriori studi, servono a illustrare i potenziali problemi dell’interazione tra IA generativa e Internet. (30science.com)

 

Gianmarco Pondrano d'Altavilla