Valentina Di Paola

L’IA impara a parlare con gli occhi di un bambino

(1 Febbraio 2024)

Roma – Addestrare al linguaggio un sistema di intelligenza artificiale sugli input ricevuti da un singolo bambino, piuttosto che tramite ampi dataset, potrebbe restituire un quadro più realistico di come avviene l’acquisizione delle prime parole. Questo curioso risultato emerge da uno studio, pubblicato sulla rivista Science, condotto dagli scienziati dell’Università di New York. Il team, guidato da Wai Keen Vong, ha sviluppato un sistema di intelligenza artificiale che è stato addestrato attraverso video e audio raccolti dalla prospettiva in prima persona di un bambino. Il piccolo partecipante, seguito per oltre un anno, è stato utilizzato come modello per l’apprendimento dell’intelligenza artificiale. I risultati, spiegano gli esperti, permettono di indagare l’acquisizione del linguaggio, e offrono un quadro prezioso per capire come i bimbi imparino parole e concetti. Allo stesso tempo, questo approccio potrebbe favorire lo sviluppo di nuovi sistemi di intelligenza artificiale in grado di apprendere il linguaggio in modi più simili a quelli umani. Tra i sei e nove mesi di età, i bambini iniziano a collegare le parole pronunciate a oggetti e concetti del mondo reale.

 

 

Entro i due anni, la maggior parte dei cuccioli riesce a comprendere circa 300 parole. Non è ancora chiaro, però, il processo che porta all’acquisizione del collegamento tra le parole e le controparti reali, e le ipotesi formulate finora dipendono da indagini condotte in laboratorio, con risultati non generalizzabili al mondo reale. Nell’ambito del nuovo lavoro, il gruppo di ricerca ha introdotto il modello Child’s View for Contrastive Learning (CVCL), basato su una serie di registrazioni di un bambino dai sei ai 25 mesi di età. La rete neurale è stata addestrata sui fotogrammi video, ottenuti con una prospettiva in prima persona. Il sistema, riportano gli autori, è stato in grado di generalizzare oltre gli specifici oggetti visivi osservati durante l’addestramento e di allineare le sue rappresentazioni visive e linguistiche di essi. Il modello, sostengono gli scienziati, fornisce una base computazionale per studiare come i bambini acquisiscono le loro prime parole e come tali parole possono radicarsi nel mondo visivo. I video rappresentavano solo circa l’1 per cento delle ore di veglia del giovane partecipante, ma sono stati sufficienti a porre le basi per l’apprendimento della lingua. In totale, i filmati contenevano circa un quarto di milione di esempi di parole, associate alle esperienze visive del bambino. “I nostri risultati – riporta Wai Keen Vong – dimostrano come i recenti progressi algoritmici abbinati all’esperienza naturalistica di un bambino abbiano il potenziale per rimodellare la nostra comprensione del linguaggio precoce e dell’acquisizione di concetti. Il modello era infatti in grado di apprendere un numero considerevole di parole e concetti presenti nell’esperienza quotidiana del bambino”. “Il nostro lavoro – conclude Brenden M. Lake, collega e coautore di Vong – evidenzia un nuovo approccio per comprendere i meccanismi di apprendimento delle parole”. (30science.com)

Valentina Di Paola
Classe ’94, cresciuta a pane e fantascienza, laureata in Scienze della comunicazione, amante dei libri, dei gatti, del buon cibo, dei giochi da tavola e della maggior parte di ciò che è anche solo vagamente associato all’immaginario nerd. Collaboro con 30science dal gennaio 2020 e nel settembre 2021 ho ottenuto un assegno di ricerca presso l’ufficio stampa dell’Istituto di ricerca sugli ecosistemi terrestri del Consiglio nazionale delle ricerche. Se dovessi descrivermi con un aggettivo userei la parola ‘tenace’, che risulta un po’ più elegante della testardaggine che mi caratterizza da prima che imparassi a usare la voce per dar senso ai miei pensieri. Amo scrivere e disegnare, non riesco a essere ordinata, ma mi piace pensare che la mia famiglia e il mio principe azzurro abbiano imparato ad accettarlo. La top 3 dei miei sogni nel cassetto: imparare almeno una lingua straniera (il Klingon), guardare le stelle più da vicino (dal Tardis), pilotare un velivolo (il Millennium Falcon).