Valentina Di Paola

ChatGPT non è infallibile nell’interpretare le immagini radiologiche

(3 Settembre 2024)

Roma – Il modello di intelligenza artificiale ChatGPT-4 Vision è in grado di rispondere correttamente a un esame di radiologia basato sul testo, ma sembra sperimentare ancora delle difficoltà sulle domande relative all’interpretazione di immagini. A dimostrarlo uno studio, pubblicato sulla rivista Radiology, condotto dagli scienziati della Henry Ford Health a Detroit. Il team, guidato da Chad Klochko, ha valutato le prestazioni del modello di intelligenza artificiale Chat GPT-4 Vision, la prima versione di grandi dimensioni in grado di elaborare sia testo che immagini. “L’algoritmo Chat GPT-4 – afferma Klochko – si è rivelato molto promettente come assistente alla semplificazione dei referti radiologici e nell’interpretazione del protocollo appropriato ai diversi esami di imaging. Vision consente nuove potenziali applicazioni in radiologia”. Nell’ambito dell’indagine, i ricercatori hanno testato il modello sulla base delle domande poste durante gli esami di formazione in radiologia diagnostica dell’American College of Radiology, una serie di test utilizzati per valutare i progressi degli studenti. In totale, sono state considerate 377 domande in 13 domini, tra cui 195 domande solo di testo e 182 che contenevano un’immagine da interpretare. GPT-4 Vision ha risposto correttamente a 246 delle 377 domande, ottenendo un punteggio complessivo del 65,3 per cento. Nello specifico, l’intelligenza artificiale ha riconosciuto la risposta corretta nell’81,5 per cento delle domande di testo e nel 47,8 per cento dei quiz con immagini. 120 domande sono state lasciate in bianco. “L’accuratezza nei quesiti basasti sul testo – riporta Klochko – rispecchia le prestazioni del modello precedente. Questa coerenza nelle domande basate su testo potrebbe suggerire che il modello ha un certo grado di comprensione testuale in radiologia. Il nostro lavoro evidenzia le materie specifiche in cui l’algoritmo era più e meno affidabili. Durante le esplorazioni iniziali del modello non avevamo mai riscontrato il rifiuto di rispondere a una domanda. Abbiamo inoltre notato una tendenza allarmante del modello a fornire diagnosi corrette basate su interpretazioni errate delle immagini, il che potrebbe avere implicazioni cliniche significative”. “Questi risultati – conclude – evidenziano la necessità di individuare metodi di valutazione più specializzati e rigorosi per testare le prestazioni di modelli linguistici di grandi dimensioni nelle attività di radiologia. Date le attuali sfide nell’interpretazione accurata delle immagini radiologiche chiave e la tendenza alle risposte allucinatorie, l’applicabilità di GPT-4 Vision in campi critici per l’informazione come la radiologia è limitata nel suo stato attuale”. (30Science.com)

Valentina Di Paola
Classe ’94, cresciuta a pane e fantascienza, laureata in Scienze della comunicazione, amante dei libri, dei gatti, del buon cibo, dei giochi da tavola e della maggior parte di ciò che è anche solo vagamente associato all’immaginario nerd. Collaboro con 30science dal gennaio 2020 e nel settembre 2021 ho ottenuto un assegno di ricerca presso l’ufficio stampa dell’Istituto di ricerca sugli ecosistemi terrestri del Consiglio nazionale delle ricerche. Se dovessi descrivermi con un aggettivo userei la parola ‘tenace’, che risulta un po’ più elegante della testardaggine che mi caratterizza da prima che imparassi a usare la voce per dar senso ai miei pensieri. Amo scrivere e disegnare, non riesco a essere ordinata, ma mi piace pensare che la mia famiglia e il mio principe azzurro abbiano imparato ad accettarlo. La top 3 dei miei sogni nel cassetto: imparare almeno una lingua straniera (il Klingon), guardare le stelle più da vicino (dal Tardis), pilotare un velivolo (il Millennium Falcon).