Roma – Quasi tutti i principali modelli linguistici di grandi dimensioni o “chatbot” mostrano segni di lieve deterioramento cognitivo nei test ampiamente utilizzati per individuare i primi segni di demenza, secondo uno studio pubblicato nel numero di Natale del BMJ.
I risultati mostrano anche che le versioni “più vecchie” dei chatbot, come i pazienti più anziani, tendono a ottenere risultati peggiori nei test. Gli autori affermano che queste scoperte “mettono in discussione l’ipotesi che l’intelligenza artificiale sostituirà presto i dottori umani”.
Gli enormi progressi nel campo dell’intelligenza artificiale hanno dato vita a una serie di speculazioni, emozionanti e timorose, sulla possibilità che i chatbot possano superare i medici umani.
Diversi studi hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM) sono straordinariamente adatti a una serie di compiti diagnostici in campo medico, ma la loro suscettibilità a disabilità umane come il declino cognitivo non è stata ancora esaminata.
Per colmare questa lacuna di conoscenze, i ricercatori hanno valutato le capacità cognitive dei principali LLM disponibili al pubblico (ChatGPT versioni 4 e 40, sviluppato da OpenAI), Claude 3.5 “Sonnet” (sviluppato da Anthropic) e Gemini versioni 1 e 1.5 (sviluppato da Alphabet) utilizzando il test Montreal Cognitive Assessment (MoCA).
Il test MoCA è ampiamente utilizzato per rilevare il deterioramento cognitivo e i primi segni di demenza, solitamente negli anziani. Attraverso una serie di brevi compiti e domande, valuta abilità tra cui attenzione, memoria, linguaggio, abilità visuospaziali e funzioni esecutive. Il punteggio massimo è di 30 punti, con un punteggio di 26 o superiore generalmente considerato normale.
Le istruzioni fornite agli LLM per ogni compito erano le stesse di quelle fornite ai pazienti umani. La valutazione seguiva le linee guida ufficiali ed era effettuata da un neurologo praticante.
ChatGPT 4o ha ottenuto il punteggio più alto nel test MoCA (26 su 30), seguito da ChatGPT 4 e Claude (25 su 30), mentre Gemini 1.0 ha ottenuto il punteggio più basso (16 su 30).
Tutti i chatbot hanno mostrato scarse prestazioni nelle abilità visuospaziali e nei compiti esecutivi, come il compito di tracciare sentieri (collegare numeri e lettere cerchiati in ordine crescente) e il test di disegno dell’orologio (disegnare un quadrante di orologio che mostra un orario specifico). I modelli Gemini hanno fallito nel compito di richiamo ritardato (ricordare una sequenza di cinque parole).
La maggior parte degli altri compiti, tra cui denominazione, attenzione, linguaggio e astrazione, sono stati eseguiti bene da tutti i chatbot.
Ma in ulteriori test visuospaziali, i chatbot non sono stati in grado di mostrare empatia o interpretare accuratamente scene visive complesse. Solo ChatGPT 4o è riuscito nella fase incongruente del test Stroop, che utilizza combinazioni di nomi di colori e colori di font per misurare come l’interferenza influisce sul tempo di reazione.
Si tratta di risultati osservativi e gli autori riconoscono le differenze essenziali tra il cervello umano e i grandi modelli linguistici.
Tuttavia, sottolineano che il fallimento uniforme di tutti i grandi modelli linguistici nei compiti che richiedono astrazione visiva e funzione esecutiva evidenzia un’area di debolezza significativa che potrebbe impedirne l’uso in contesti clinici.
Pertanto, concludono: “Non solo è improbabile che i neurologi vengano sostituiti da grandi modelli linguistici in tempi brevi, ma i nostri risultati suggeriscono che potrebbero presto ritrovarsi a curare nuovi pazienti virtuali, modelli di intelligenza artificiale che presentano un deterioramento cognitivo”.(30Science.com)