Salta il menu

Newsletter Feed RSS Facebook Forum Contatti Accadde oggi Cerca

IA e Modelli linguistici, la loro capacità di ragionare è solo un ''fragile miraggio''

Uno studio smonta i progressi apparenti delle intelligenze artificiali: non comprendono, ma si limitano a riproporre gli schemi su cui sono state addestrate.

[ZEUS News - www.zeusnews.it - 12-08-2025]

Un recente studio condotto da ricercatori delle università di Princeton e UC Berkeley, pubblicato in pre-print su arXiv, ha messo in luce una limitazione significativa dei grandi modelli linguistici (LLM), come quelli che alimentano assistenti AI avanzati: nonostante la loro capacità di generare testi fluidi e convincenti, questi modelli mostrano gravi carenze nel ragionamento logico e nell'inferenza, producendo spesso quello che i ricercatori definiscono «fluent nonsense» (discorsi scorrevoli ma privi di senso).

Lo studio si concentra sul fenomeno del "ragionamento simulato" degli LLM, ovvero la loro apparente capacità di seguire catene logiche di pensiero (chain-of-thought reasoning), un aspetto sottolineato particolarmente al momento del lancio di alcuni modelli recenti, come Grok 4 e GPT-5. I ricercatori hanno testato modelli come quelli di OpenAI, Google e Meta, scoprendo che le loro prestazioni peggiorano in modo significativo quando devono generalizzare andando al di là dei dati su cui sono stati addestrati. Per esempio, in compiti che richiedono di applicare regole logiche a nuovi scenari, gli LLM tendono a produrre risposte che sembrano corrette in superficie ma che, a un'analisi più approfondita, risultano incoerenti o errate. Questo problema è particolarmente evidente quando i modelli sono sottoposti a test di logica formale o a domande che richiedono un ragionamento astratto, come dimostrato da esperimenti che hanno messo in luce errori sistematici in problemi matematici o di deduzione.

Un aspetto interessante emerso dalla ricerca è che il processo di ottimizzazione, come il fine tuning o il rinforzo con feedback umano (RLHF), può addirittura peggiorare queste carenze. Ciò avviene perché gli LLM sono progettati per massimizzare la probabilità di generare sequenze di parole plausibili, non per verificare la correttezza logica delle loro affermazioni. Come sottolineato da un rapporto di Nature, gli LLM eccellono nel sintetizzare informazioni e nel generare testi che imitano il ragionamento umano, ma non riescono a replicare il processo di inferenza che sta alla base della vera comprensione.

Le implicazioni di queste limitazioni sono rilevanti in diversi ambiti. Per esempio, nel settore scientifico, dove giganti come Microsoft stanno esplorando sistemi AI auto-adattivi per supportare la ricerca, la mancanza di un ragionamento logico affidabile potrebbe compromettere l'accuratezza delle analisi. Analogamente, in contesti come la ricerca su Google, dove le AI Overview sono sempre più diffuse, errori logici potrebbero portare a informazioni fuorvianti per gli utenti.

Ti raccomandiamo anche:

Le IA vendute come oracoli sono solo fuffa: ecco perché

Chiede a ChatGPT come sostituire il sale, finisce in ospedale con una malattia d...

Debutta ChatGPT-5, utenti si ribellano: è come aver perso una persona cara....

OpenAI porta l'IA su laptop e smartphone con due nuovi modelli open source

I modelli che seguono il chain-of-thought (CoT) reasoning - scrivono i ricercatori - sono soltanto «una forma sofisticata di riconoscimento degli schemi» che «peggiora in modo sostanziale» quando viene portata al di là, anche di poco, del proprio campo di addestramento. E la capacità di creare «sciocchezze scorrevoli» genera «una falsa aura di affidabilità» che non regge davanti a un esame serio, ma che potrebbe trarre in inganno i meno provveduti. Insomma, gli enormi progressi apparenti compiuti dalle IA sarebbero «in gran parte un fragile miraggio» che va in pezzi rapidamente: «anziché dimostrare una vera comprensione del testo, il ragionamento CoT sembra consistere in una ripetizione degli schemi appresi durante l'addestramento».

Nonostante queste criticità, gli LLM continuano a essere strumenti potenti in ambiti che non richiedono un ragionamento rigoroso; e, senza dubbio, sono ampiamente adoperati in molti ambiti. Secondo un rapporto di theCUBE Research, quest'anno quasi la metà dei lavoratori impiegati in ruoli amministrativi ha utilizzato l'AI generativa per attività come la sintesi di informazioni o l'automazione di compiti ripetitivi. Tuttavia, per applicazioni che richiedono precisione, come la verifica di dati scientifici o la risoluzione di problemi complessi, i ricercatori suggeriscono di integrare gli LLM con sistemi esterni di validazione logica, come algoritmi simbolici o basi di conoscenza strutturate.

Un ulteriore problema emerso è la tendenza degli LLM a generare risposte che ignorano la verità fattuale. Un altro studio leggermente più vecchio, significativamente intitolato "Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models", evidenzia come i modelli, in particolare dopo il fine tuning, possano produrre affermazioni non veritiere con una sicurezza apparente che inganna gli utenti. Questo fenomeno, amplificato dall'addestramento su grandi quantità di dati testuali, rappresenta una sfida per l'adozione degli LLM in contesti dove l'accuratezza è cruciale.

Proposte di lettura:

La bolla finanziaria degli LLM

IA, una bolla più grande di quella delle dotcom? L'allarme degli analis...

La IA di Google "fa calare il traffico" ai siti web: parte la denuncia alla Comm...

Eliza colpisce ancora

Consigliamo la lettura di:

Il ragionamento delle IA è un'illusione: falliscono su indovinelli e ro...

Da OpenAI un ''compagno virtuale'' per i programmatori

Le prestazioni della IA? Si testano con Super Mario

IA: era una bolla quella che è scoppiata

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti

Il ragionamento delle IA è un'illusione: falliscono su indovinelli e rompicapo. Lo studio di Apple
Da OpenAI un ''compagno virtuale'' per i programmatori
Le prestazioni della IA? Si testano con Super Mario
IA: era una bolla quella che è scoppiata
L'impercettibile pericolosità dei chatbot
NFT senza valore, la bolla è scoppiata

Commenti all'articolo (ultimi 5 di 8)

Gladiator

Sì, in questo caso la IA è stata diversamente allucinata... :lol:
25-8-2025 18:31

Homer S.

In realtà non è poi tanto campata per aria. Cercando in Rete si scopre che il lander di Viking 1 era alto poco più di 1,80 m, quindi è possibile che la IA abbia equivocato "distanza dalla Terra" come "altezza dal suolo". Ma di esempi come quello che citi il mare magnum di Internet è già pieno fino all'orlo...
25-8-2025 12:55

FrancescoV

Parlando con un amico erano sorti dubbi sulla distanza dalla terra delle sonde Voyager, così ho fatto una rapida domanda a Google. Solo che parlando avevamo confuso i nomi delle Voyager con le Viking: senza accorgermi dell'errore ho chiesto la distanza da terra delle Viking. La risposta riassunta dalla ormai inevitabile AI è stata più o... Leggi tutto
25-8-2025 12:08

Gladiator

La preferisco se profuma di fritto. :wink: Leggi tutto
18-8-2025 17:52

Homer S.

Dàlle tempo e snifferà per te... (anzi, magari già lo fa e usa le banconote arrotolate)
18-8-2025 17:16

Leggi gli altri 3 commenti nel forum Scienze e nuove tecnologie
Inserisci un commento - anche se NON sei registrato

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.


News(3 commenti) L'OS di Commodore per gli orfani di Windows 10: OS Vision 3.0, cuore Linux ed estetica retro	News(5 commenti) WhatsApp, arrivano i nomi utente: presto sarà possibile prenotare quello preferito

News(4 commenti)

Amazon Web Services down, disservizi in tutto il mondo: colpita anche l'Agenzia delle Entrate

News(13 commenti)

Guida autonoma in 60 città italiane: Italia primo laboratorio europeo per i test

News(12 commenti)

Infotainment in auto, nuove regole: i veicoli smart dovranno avere un'autoradio FM/DAB+

News(11 commenti)

ChatGPT includerà contenuti erotici, ma solo per gli adulti verificati

E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.

Sondaggio

Il gadget del momento è lo smart watch. Si indossa al polso come un orologio tradizionale ma consente di telefonare, mandare Sms, accedere al web, leggere l'email, postare su Twitter o Facebook, ascoltare la musica. Ne acquisteresti uno?