Gianmarco Pondrano d'Altavilla

Non tutte le intelligenze artificiali “open source” sono davvero “aperte”

(26 Giugno 2024)

Roma – Giganti della tecnologia come Meta e Microsoft descrivono i loro modelli di intelligenza artificiale (AI) come “open source” senza rivelare però informazioni importanti sulla tecnologia sottostante. Questo secondo un nuovo studio i cui autori hanno analizzato una serie di popolari modelli di chatbot. La definizione di open source per quanto riguarda i modelli di intelligenza artificiale non è ancora stata concordata, ma i sostenitori affermano che l’apertura “piena” stimola la scienza ed è fondamentale per gli sforzi volti a rendere l’intelligenza artificiale responsabile . Ciò che conta come open source assumerà probabilmente maggiore importanza con l’ entrata in vigore della legge sull’intelligenza artificiale dell’Unione europea . La legislazione applicherà norme meno rigide ai modelli classificati come “open”. Alcune grandi aziende stanno raccogliendo i vantaggi di affermare di avere modelli open source, mentre cercano di “farla franca divulgando il meno possibile”, afferma Mark Dingemanse, scienziato del linguaggio presso la Radboud University di Nijmegen, nei Paesi Bassi. Questa pratica è nota come “open-washing”. “Con nostra sorpresa, sono stati i piccoli attori, con risorse relativamente ridotte, a fare il massimo possibile “, afferma Dingemanse, che insieme al suo collega Andreas Liesenfeld, un linguista computazionale, ha firmato il nuovo studio che è stato pubblicato negli atti della ACM Conference on Fairness, Accountability and Transparency 2024. Nel loro studio, Dingemanse e Liesenfeld hanno valutato 40 grandi modelli linguistici, sistemi che imparano a generare testo creando associazioni tra parole e frasi in grandi volumi di dati. Tutti questi modelli dichiarano di essere “open source” o “open”. I due hanno stilato una classifica di “openness” valutando i modelli in base a 14 parametri, tra cui la disponibilità di codice e dati di addestramento, quale documentazione viene pubblicata e quanto è facile accedere al modello. Per ciascun parametro hanno valutato se i modelli fossero aperti, parzialmente aperti o chiusi. I ricercatori hanno scoperto che molti modelli che dichiarano di essere open o open source – tra cui Llama di Meta e Gemma di Google DeepMind – sono, in realtà, solo “open weight”. Ciò significa che i ricercatori esterni possono accedere e utilizzare i modelli addestrati, ma non possono ispezionarli o personalizzarli. Né riescono a comprendere appieno come siano stati messi a punto per compiti specifici; ad esempio, utilizzando il feedback umano. Particolarmente preoccupante, affermano gli autori, è la mancanza di trasparenza riguardo ai dati su cui vengono addestrati i modelli. Circa la metà dei modelli analizzati non forniscono alcun dettaglio sui set di dati oltre ai descrittori generici. Un portavoce di Google afferma che l’azienda è “precisa riguardo al linguaggio” che utilizza per descrivere i modelli, scegliendo di etichettare il suo Gemma LLM come open piuttosto che open source. “I concetti open source esistenti non possono sempre essere applicati direttamente ai sistemi di intelligenza artificiale”, hanno aggiunto. Microsoft cerca di essere “il più precisa possibile su cosa è disponibile e in che misura”, dice un portavoce. “Abbiamo scelto di rendere disponibili al pubblico artefatti come modelli, codice, strumenti e set di dati perché le comunità di sviluppatori e di ricerca hanno un ruolo importante da svolgere nel progresso della tecnologia AI”. (30science.com)

 

Gianmarco Pondrano d'Altavilla