30Science.com

ChatGPT simula, ma non sa valutare

(14 Ottobre 2025)

Roma – I modelli linguistici generativi come ChatGPT, Gemini, Llama o Mistral sono ormai al centro di numerosi processi decisionali: classificano contenuti, valutano fonti, suggeriscono soluzioni. Ma siamo sicuri che giudichino davvero? O ci stiamo semplicemente abituando a scambiare la forma del giudizio per il giudizio stesso? Uno studio appena pubblicato su PNAS da un team guidato da Walter Quattrociocchi direttore del Center of Data Science and Complexity for Society (CDCS) de la Sapienza Università di Roma, analizza per la prima volta in modo sistematico come sei modelli linguistici di ultima generazione operazionalizzano il concetto di affidabilità. Il lavoro confronta le loro valutazioni con quelle prodotte da esseri umani ed esperti del settore (NewsGuard, MBFC), utilizzando un protocollo identico per tutti: stessi criteri, stessi contenuti, stessa procedura. Il focus non è sull’accuratezza del risultato finale, ma su come il giudizio viene costruito. I risultati mostrano una convergenza apparente negli esiti — i modelli spesso classificano le fonti come farebbe un esperto — ma una divergenza profonda nei meccanismi. Gli LLM non ragionano: simulano. Non valutano sulla base di contenuti verificabili, ma  ottimizzano sulla plausibilità linguistica, attingendo a pattern statistici appresi durante l’addestramento, non a un’analisi ancorata al reale. Il loro giudizio è una proiezione stilizzata di ciò che “suona” come affidabile, non un processo di verifica. La simulazione è coerente, fluente, convincente — ma priva di fondamento. Il team introduce un concetto chiave per interpretare questa dinamica: Epistemia. Non si tratta semplicemente di errore, ma di un’illusione strutturale di conoscenza, generata quando la plausibilità formale sostituisce la verifica sostanziale. È una nuova patologia epistemica, invisibile perché perfettamente mimetizzata nelle forme del linguaggio. Nella delega cieca, in un motore che ottimizza plausibilità, rischiamo di assumere per fondate cose solo per la
loro forma. E se i sistemi sembrano valutare come noi, è proprio perché simulano le tracce del pensiero, non il pensiero stesso.
Questo studio mostra che ciò che stiamo automatizzando non è il giudizio, ma la sua apparenza. E solleva una questione cruciale per il futuro dell’AI: quanto siamo disposti a confondere la coerenza linguistica con la verità?(30Science.com)

30Science.com
Agenzia di stampa quotidiana specializzata su temi di scienza, ambiente, natura, salute, società, mobilità e tecnologia. Ogni giorno produciamo una rassegna stampa delle principali riviste scientifiche internazionali e quattro notiziari tematici: Scienza, Clima & Natura, Salute, Nuova Mobilità e Ricerca Italiana contatti: redazione@30science.com + 39 3492419582