Roma – Gli esseri umani superano ancora le capacità dell’intelligenza artificiale nel descrivere e interpretare le interazioni sociali in una scena in movimento. A evidenziarlo uno studio, presentato durante l’International Conference on Learning Representations, condotto dagli scienziati della Johns Hopkins University. Il team, guidato da Leyla Isik, ha chiesto a un gruppo di partecipanti di guardare videoclip di tre secondi e di valutare le caratteristiche importanti per la comprensione delle interazioni sociali. Gli stessi filmati sono stati esaminati dall’intelligenza artificiale. I risultati, riportano gli autori, rilevano che i sistemi di intelligenza artificiale non riescono a comprendere le dinamiche sociali e il contesto necessari per interagire con le persone. La capacità di leggere l’ambiente, sostengono gli scienziati, è fondamentale per la progettazione di auto a guida autonoma, robot assistivi e altre tecnologie che si basano sull’intelligenza artificiale per orientarsi nel mondo reale. “Per guidare, ad esempio – afferma Isik – è necessario riconoscere le intenzioni, gli obiettivi e le azioni di conducenti e pedoni. Una intelligenza artificiale che interagisce con l’umanità dovrebbe essere in grado di comprendere l’ambiente in cui si trova, ma vediamo che i modelli attuali non ne sono in grado. Le tecnologie di cui disponiamo oggi non hanno ancora superato questo limite”. Nell’ambito dell’indagine, ai partecipanti sono stati mostrati video che includevano persone che interagivano tra loro, svolgevano attività di gruppo o indipendenti. Successivamente, i ricercatori hanno chiesto a più di 350 modelli di intelligenza artificiale di interpretare come gli esseri umani avrebbero giudicato i video e come il loro cervello avrebbe reagito alla visione. Per i modelli linguistici più ampi, i ricercatori hanno chiesto alle IA di valutare brevi sottotitoli. I risultati hanno mostrato che le persone tendevano a rispondere in modo omogeneo, mentre i modelli di intelligenza artificiale, indipendentemente dalle dimensioni o dai dati su cui erano stati addestrati, fornivano risposte contrastanti. I modelli video non erano in grado di descrivere accuratamente ciò che le persone stavano facendo nei video. Persino i modelli di immagini a cui era stata fornita una serie di fotogrammi da analizzare non erano in grado di prevedere in modo affidabile se le persone stessero comunicando. I modelli linguistici erano più efficaci nel prevedere il comportamento umano, mentre i modelli video erano più efficaci nel prevedere l’attività neurale nel cervello. I risultati sono in netto contrasto con il successo dell’intelligenza artificiale nella lettura di immagini fisse. “Osservare immagini e riconoscere oggetti e volti – commenta Isik – rappresenta sicuramente un risultato importante. Ma la realtà non è statica, abbiamo bisogno di modelli capaci di leggere il mondo circostante in movimento. Comprendere le relazioni, il contesto e le dinamiche delle interazioni sociali sarà il prossimo step”. (30Science.com)
Valentina Di Paola
Gli umani sono più bravi dell’IA a interpretare l’ambiente
(24 Aprile 2025)

Valentina Di Paola
Classe ’94, cresciuta a pane e fantascienza, laureata in Scienze della comunicazione, amante dei libri, dei gatti, del buon cibo, dei giochi da tavola e della maggior parte di ciò che è anche solo vagamente associato all’immaginario nerd. Collaboro con 30science dal gennaio 2020 e nel settembre 2021 ho ottenuto un assegno di ricerca presso l’ufficio stampa dell’Istituto di ricerca sugli ecosistemi terrestri del Consiglio nazionale delle ricerche. Se dovessi descrivermi con un aggettivo userei la parola ‘tenace’, che risulta un po’ più elegante della testardaggine che mi caratterizza da prima che imparassi a usare la voce per dar senso ai miei pensieri. Amo scrivere e disegnare, non riesco a essere ordinata, ma mi piace pensare che la mia famiglia e il mio principe azzurro abbiano imparato ad accettarlo. La top 3 dei miei sogni nel cassetto: imparare almeno una lingua straniera (il Klingon), guardare le stelle più da vicino (dal Tardis), pilotare un velivolo (il Millennium Falcon).