Gianmarco Pondrano d'Altavilla

Intelligenze artificiali addestrate su dati riciclati rischiano il collasso

(24 Luglio 2024)

Roma – L’utilizzo di set di dati generati dall’intelligenza artificiale per addestrare le future generazioni di modelli di apprendimento automatico potrebbe inquinarne l’output, portando al collasso del modello stesso. E’ quanto emerge da un nuovo studio pubblicato su “Nature” a firma di un team di ricercatori guidato dall’Università di Oxford. Gli strumenti di intelligenza artificiale generativa come i modelli linguistici di grandi dimensioni (LLM) sono diventati sempre più popolari e sono stati addestrati principalmente utilizzando input generati dall’uomo. Tuttavia, poiché questi modelli di intelligenza artificiale continuano a proliferare su Internet, i contenuti generati dal computer potranno essere utilizzati per addestrare altri modelli di intelligenza artificiale in un ciclo ricorsivo. Ilia Shumailov dell’Universitòà di Oxford e colleghi presentano nel nuovo studio modelli matematici per illustrare come i modelli di intelligenza artificiale potrebbero subire un collasso. Gli autori dimostrano che un’intelligenza artificiale può trascurare determinati output (ad esempio, righe di testo meno comuni) nei dati di addestramento, costringendola ad addestrarsi solo su una parte del set di dati. Shumailov e colleghi hanno anche studiato il modo in cui i modelli di intelligenza artificiale hanno risposto a un set di dati di addestramento creato prevalentemente con l’intelligenza artificiale. Hanno scoperto che l’alimentazione di un modello con dati generati dall’intelligenza artificiale provoca un peggioramento della capacità di apprendimento delle generazioni successive, portando infine al collasso del modello. Quasi tutti i modelli linguistici addestrati tendevano a visualizzare frasi ripetute. Ad esempio, è stato eseguito un test utilizzando un testo sull’architettura medievale come input originale e alla nona generazione addestrata solo con dati generati dalle IA l’output era un elenco di lepri. Shumailov e colleghi suggeriscono che addestrare un modello con dati generati dall’intelligenza artificiale non è impossibile, ma il filtraggio di tali dati deve essere preso sul serio. Allo stesso tempo, le aziende tecnologiche che fanno affidamento su contenuti generati dall’uomo potrebbero essere in grado di addestrare modelli di intelligenza artificiale più efficaci rispetto ai loro concorrenti.(30Science.com)

 

Gianmarco Pondrano d'Altavilla