Lucrezia Parpaglioni

Quando si tratta di cure d’emergenza, ChatGPT prescrive troppi esami

(8 Ottobre 2024)

Roma –  L’IA generativa deve ancora trovare il giusto equilibrio tra troppa e poca assistenza prima di poter aiutare i medici a prendere decisioni nel Dipartimento di Emergenza: se ChatGPT fosse lasciato libero nel Dipartimento di Emergenza potrebbe suggerire radiografie e antibiotici non necessari per alcuni pazienti e ricoverare altri che non necessitano di cure ospedaliere. Lo rivela un nuovo studio dell’UC San Francisco, riportato su Nature Communications. I ricercatori affermano che, sebbene il modello possa essere sollecitato in modo da rendere le sue risposte più accurate, non è ancora all’altezza del giudizio clinico di un medico umano. “Questo è un messaggio importante per i medici, che non devono fidarsi ciecamente di questi modelli”, ha dichiarato Chris Williams, autore principale dello studio. “ChatGPT può rispondere a domande sull’esame medico e aiutare a redigere note cliniche, ma al momento non è stato progettato per situazioni che richiedono molteplici considerazioni, come quelle che si verificano in un dipartimento di emergenza”, ha continuato Williams, che, di recente, ha dimostrato che ChatGPT, un modello linguistico di grandi dimensioni, LLM, che può essere utilizzato per la ricerca di applicazioni cliniche dell’IA, era leggermente migliore degli esseri umani nel determinare quale dei due pazienti in emergenza fosse più grave, una scelta semplice tra il paziente A e il paziente B. Con lo studio attuale, Williams ha sfidato il modello di intelligenza artificiale a svolgere un compito più complesso: fornire le raccomandazioni che un medico fa dopo aver esaminato inizialmente un paziente al Pronto Soccorso. Tra queste, la decisione di ricoverare il paziente, di sottoporlo a radiografie o altre scansioni o di prescrivergli antibiotici. Per ciascuna delle tre decisioni, il gruppo di ricerca ha compilato un set di 1.000 visite al Pronto Soccorso da analizzare da un archivio di oltre 251.000 visite. I set presentavano lo stesso rapporto di risposte “sì” e “no” per le decisioni sul ricovero, la radiologia e gli antibiotici che si riscontrano in tutto il Dipartimento di Emergenza della UCSF Health. Utilizzando la piattaforma di AI generativa sicura dell’UCSF, dotata di un’ampia protezione della privacy, i ricercatori hanno inserito in ChatGPT-3.5 e ChatGPT-4 le note dei medici sui sintomi e i risultati degli esami di ciascun paziente. Poi hanno testato l’accuratezza di ciascun set con una serie di richieste sempre più dettagliate. Nel complesso, i modelli di intelligenza artificiale tendevano a raccomandare i servizi più spesso di quanto fosse necessario. Il ChatGPT-4 è risultato meno accurato dell’8% rispetto ai medici residenti, mentre il ChatGPT-3.5 è risultato meno accurato del 24%. “La tendenza dell’intelligenza artificiale a prescrivere troppo potrebbe essere dovuta al fatto che i modelli sono stati addestrati su Internet, dove i siti di consulenza medica legittimi non sono progettati per rispondere a domande mediche di emergenza, ma piuttosto per inviare i lettori a un medico in grado di farlo”, ha affermato Williams. “Questi modelli sono quasi regolati per dire “chiedete consiglio al medico”, il che è giusto dal punto di vista della sicurezza pubblica generale”, ha evidenziato Williams. “Ma non sempre la prudenza è d’obbligo nell’ambito di interventi d’emergenza, dove le azioni non necessarie possono danneggiare i pazienti, sovraccaricare le risorse e far lievitare i costi per i pazienti”, ha sottolineato Williams. Secondo il ricercatore, i modelli come ChatGPT avranno bisogno di strutture migliori per valutare le informazioni cliniche. “Chi progetterà tali strutture dovrà trovare un equilibrio tra la necessità di assicurarsi che l’IA non si lasci sfuggire qualcosa di grave e quella di evitare di far scattare esami e spese non necessari”, ha precisato Williams. “Ciò significa che i ricercatori che sviluppano applicazioni mediche dell’IA, insieme alla comunità clinica in generale e al pubblico, devono valutare dove tracciare queste linee di demarcazione” ha specificato Williams. “Non esiste una soluzione perfetta, ma sapendo che modelli come ChatGPT hanno queste tendenze, abbiamo il compito di pensare a come vogliamo che si comportino nella pratica clinica”, ha concluso Williams. (30Science.com)

Lucrezia Parpaglioni
Sono nata nel 1992. Sono laureata in Media Comunicazione digitale e Giornalismo presso l'Università Sapienza di Roma. Durante il mio percorso di studi ho svolto un'attività di tirocinio presso l'ufficio stampa del Consiglio Nazionale delle Ricerche (CNR). Qui ho potuto confrontarmi con il mondo della scienza fatto di prove, scoperte e ricercatori. E devo ammettere che la cosa mi è piaciuta. D'altronde era prevedibile che chi ha da sempre come idolo Margherita Hack e Sheldon Cooper come spirito guida si appassionasse a questa realtà. Da qui la mia voglia di scrivere di scienza, di fare divulgazione e perché no? Dimostrare che la scienza può essere anche divertente.