Il ragionamento delle IA è un'illusione: falliscono su indovinelli e rompicapo. Lo studio di Apple

Messi alla prova con degli indovinelli, anche gli LLM migliori hanno ottenuto risultati imbarazzanti.



[ZEUS News - www.zeusnews.it - 13-06-2025]

studio apple ia ragionamento illusione

Che le cosiddette "intelligenze artificiali" non siano per davvero intelligenti è qualcosa di cui tutti dovremmo ormai essere coscienti. Ora uno studio condotto da sei ricercatori di Apple conferma quanto già si sospettava: i grandi modelli linguistici (LLM) non sono effettivamente in grado di ragionare, in particolare quelli progettati per il "ragionamento simulato" (SR).

Pubblicato poco prima della WWDC 2025, lo studio intitolato The Illusion of Thinking (L'illusione del pensiero) ha analizzato le prestazioni di questi modelli facendo loro affrontare dei rompicapo, come la Torre di Hanoi e il problema dell'attraversamento del fiume. Sono stati messi in evidenza dei limiti che mettono in discussione l'idea che tali sistemi possano ragionare come gli esseri umani - ora, ma anche in futuro. I ricercatori hanno testato oltre 20 modelli, tra cui OpenAI's o3-mini, DeepSeek R1 e Claude 3.7 Sonnet; hanno operato in maniera tale da evitare la contaminazione dei dati, un problema comune nei benchmark matematici tradizionali.

I risultati mostrano che i modelli SR, pur comportandosi bene quando devono gestire compiti semplici, falliscono completamente quando la complessità aumenta oltre una certa soglia. Per esempio, nella Torre di Hanoi con 10 o più dischi, tutti i modelli testati hanno registrato un tasso di successo pari a zero, anche con risorse computazionali adeguate. In certi casi i risultati sono particolarmente interssanti: il modello Claude 3.7 Sonnet per esempio è riuscito a eseguire fino a 100 mosse corrette nella Torre di Hanoi, ma ha fallito la risoluzione di un indovinello di attraversamento del fiume che richiedeva solo cinque mosse; da ciò i ricercatori hanno dedotto che i fallimenti siano specifici del compito piuttosto che legati alla capacità computazionale.

Un altro aspetto emerso dallo studio è il cosiddetto fenomeno del "limite di scala controintuitivo". A mano a mano che la complessità dei problemi aumenta, i modelli SR inizialmente generano più "token di pensiero" per elaborare le soluzioni; oltre una certa soglia invece riducono lo sforzo di ragionamento, anche se dispongono di risorse sufficienti. Questo comportamento è stato attribuito a una dipendenza da pattern probabilistici, anziché da un ragionamento logico formale, e a volte andando proprio contro la logica. Per esempio nello studio si legge che i modelli «interpretano le frasi che parlano di "sconti" come se parlassero di "moltiplicazioni", indipendentemente dal contesto. Ciò ci spinge a chiederci se questi modelli davvero abbiano compreso i concetti matematici con sufficiente esattezza».

La ricerca evidenzia anche la fragilità dei modelli di fronte a variazioni minime. Cambiare i nomi propri in un problema può alterare i risultati fino al 10%: è un livello di variabilità che non ci si aspetterebbe da uno studente con una reale comprensione matematica. Inoltre, l'introduzione di informazioni irrilevanti, come dettagli superflui nei problemi, ha causato cali drastici di accuratezza, con perdite dal 17,5% al 65,7% rispetto al benchmark GSM8K.

Gli autori dello studio concludono che i modelli attuali di intelligenza artificiale, pur mostrando capacità in compiti specifici, non eseguono un vero ragionamento logico, ma si affidano a un riconoscimento di schemi probabilistici. Questa dipendenza limita la loro abilità di affrontare problemi nuovi o complessi, come evidenziato dai loro fallimenti nei test. Gary Marcus, esperto di AI, ha commentato che i risultati non fanno altro che confermare come i modelli non eseguano un ragionamento formale; si basano invece su un "sofisticato riconoscimento degli schemi" che risulta fragile di fronte a variazioni o contesti non familiari. Persino fornire agli LLM algoritmi espliciti per risolvere la Torre di Hanoi non ha migliorato le prestazioni, suggerendo che il processo seguito dai modelli non sia logico né intelligente.

Un altro punto di interesse sono le prestazioni superiori durante l'esecuzione di compiti analitici mostrate dai modelli SR rispetto ai modelli generici, come per esempio GPT-4o. I ricercatori sostengono che tali progressi derivano da un maggiore uso di risorse computazionali per elaborare i problemi in passi più piccoli, non da una vera comprensione. Tutto ciò porta in conclusione a porsi diversi interrogativi sul futuro dello sviluppo della IA, con esperti come Andrew Rogoyski dell'Università del Surrey che suggeriscono che l'attuale approccio basato possa aver raggiunto un vicolo cieco se l'intento è ottenere un ragionamento generalizzabile.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Commenti all'articolo (ultimi 5 di 12)

Considerato che una IA ha un “modo di ragionare” che è essenzialmente statistico e probabilistico è in grado di: è sostanzialmente corretta. Leggi tutto
21-6-2025 13:59

Articolo pubblicato su Le Scienze (dietro paywall): https://www.lescienze.it/news/2025/06/13/news/matematici_intelligenza_artificiale-19430305/ Leggi tutto
20-6-2025 08:25

{UtenteAnonimo}
Citando l'incipit: Deduco da ciò che l'autore, se sa che le cosiddette "intelligenze artificiali" non sono veramente intelligenti, saprà allora cos'è l'intelligenza e come definirla. Sarebbe utile ci illuminasse, in quanto noi popolo di bruti, ancora non lo sappiamo. Intendo, veramente non esiste una definizione di... Leggi tutto
16-6-2025 04:32

@ ilio riguardo al fatto che le IA possano raggiungere un livello di autocoscienza, credo che la questione sia piuttosto cosa intendiamo per autocoscienza. Gli animali e persino gli insetti hanno quello che chiamiamo istinto di conservazione. Ma per conservarsi, qualcuno deve prima avere coscienza di sè. Anche le piante reagiscono a ciò... Leggi tutto
15-6-2025 21:20

Spiegato in questo modo il funzionamento delle cosiddette IA è piuttosto chiaro: data una grande quantità di dati viene costruito un modello statistico che in base agli input replica con i dati statistici più rilevanti. Ma, e questo lo studio sembra chiarirlo in modo definitivo, sono risposte statisticamente valide, non corrette.... Leggi tutto
15-6-2025 21:14

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Qual è il prodotto più obsoleto tra questi?
Il lettore DVD da salotto: sta per fare la fine del videoregistratore VHS.
L'iPod: ormai la musica si ascolta con lo smartphone.
Il Blackberry: ha pochissime app, ormai ha fatto il suo tempo.
Angry Birds: ormai la moda è passata.
Un telefonino che non sia smartphone: esistono ancora?
L'auricolare Bluetooth: è bruttissimo a vedersi.
Lo smartwatch, per lo meno quelli di prima generazione: brutti e limitati.
Il Nintendo Wii: non può competere con l'Xbox One e la PS4.

Mostra i risultati (2328 voti)
Dicembre 2025
Televisori LG, dopo l'aggiornamento compare l'app di Copilot. E non si può più togliere
Google lancia la traduzione simultanea universale: bastano qualsiasi telefono Android e auricolari
Tassa da 2 euro sui pacchi fino a 150 euro: la Manovra 2026 coinvolge milioni di spedizioni
Lo script open source che fa sparire Copilot, Recall e gli altri componenti IA da Windows 11
Google Antigravity cancella un intero drive: la IA si scusa, ma i dati sono persi
Migliaia di aerei A320 a terra. Perché è una buona notizia
Arduino passa a Qualcomm: la comunità hacker esplode di malcontento
Piracy Shield, i provider italiani presentano il conto: 10 milioni di euro l'anno
Il Digital Omnibus è una resa dell'Unione Europea?
Novembre 2025
MediaWorld vende iPad a 15 euro per errore, adesso li vuole tutti indietro
Riscaldano casa con un datacenter in giardino: giù i costi delle bollette
I Baschi Grigi della Cybersicurezza
Telemarketing aggressivo, operativo il filtro che impedisce lo spoofing dei numeri mobili
Cloudflare in tilt. Migliaia di siti irraggiungibili, servizi bloccati in tutto il mondo
E se Internet sparisse?
Tutti gli Arretrati
Accadde oggi - 17 dicembre


web metrics