Il ragionamento delle IA è un'illusione: falliscono su indovinelli e rompicapo. Lo studio di Apple

Messi alla prova con degli indovinelli, anche gli LLM migliori hanno ottenuto risultati imbarazzanti.



[ZEUS News - www.zeusnews.it - 13-06-2025]

studio apple ia ragionamento illusione

Che le cosiddette "intelligenze artificiali" non siano per davvero intelligenti è qualcosa di cui tutti dovremmo ormai essere coscienti. Ora uno studio condotto da sei ricercatori di Apple conferma quanto già si sospettava: i grandi modelli linguistici (LLM) non sono effettivamente in grado di ragionare, in particolare quelli progettati per il "ragionamento simulato" (SR).

Pubblicato poco prima della WWDC 2025, lo studio intitolato The Illusion of Thinking (L'illusione del pensiero) ha analizzato le prestazioni di questi modelli facendo loro affrontare dei rompicapo, come la Torre di Hanoi e il problema dell'attraversamento del fiume. Sono stati messi in evidenza dei limiti che mettono in discussione l'idea che tali sistemi possano ragionare come gli esseri umani - ora, ma anche in futuro. I ricercatori hanno testato oltre 20 modelli, tra cui OpenAI's o3-mini, DeepSeek R1 e Claude 3.7 Sonnet; hanno operato in maniera tale da evitare la contaminazione dei dati, un problema comune nei benchmark matematici tradizionali.

I risultati mostrano che i modelli SR, pur comportandosi bene quando devono gestire compiti semplici, falliscono completamente quando la complessità aumenta oltre una certa soglia. Per esempio, nella Torre di Hanoi con 10 o più dischi, tutti i modelli testati hanno registrato un tasso di successo pari a zero, anche con risorse computazionali adeguate. In certi casi i risultati sono particolarmente interssanti: il modello Claude 3.7 Sonnet per esempio è riuscito a eseguire fino a 100 mosse corrette nella Torre di Hanoi, ma ha fallito la risoluzione di un indovinello di attraversamento del fiume che richiedeva solo cinque mosse; da ciò i ricercatori hanno dedotto che i fallimenti siano specifici del compito piuttosto che legati alla capacità computazionale.

Un altro aspetto emerso dallo studio è il cosiddetto fenomeno del "limite di scala controintuitivo". A mano a mano che la complessità dei problemi aumenta, i modelli SR inizialmente generano più "token di pensiero" per elaborare le soluzioni; oltre una certa soglia invece riducono lo sforzo di ragionamento, anche se dispongono di risorse sufficienti. Questo comportamento è stato attribuito a una dipendenza da pattern probabilistici, anziché da un ragionamento logico formale, e a volte andando proprio contro la logica. Per esempio nello studio si legge che i modelli «interpretano le frasi che parlano di "sconti" come se parlassero di "moltiplicazioni", indipendentemente dal contesto. Ciò ci spinge a chiederci se questi modelli davvero abbiano compreso i concetti matematici con sufficiente esattezza».

La ricerca evidenzia anche la fragilità dei modelli di fronte a variazioni minime. Cambiare i nomi propri in un problema può alterare i risultati fino al 10%: è un livello di variabilità che non ci si aspetterebbe da uno studente con una reale comprensione matematica. Inoltre, l'introduzione di informazioni irrilevanti, come dettagli superflui nei problemi, ha causato cali drastici di accuratezza, con perdite dal 17,5% al 65,7% rispetto al benchmark GSM8K.

Gli autori dello studio concludono che i modelli attuali di intelligenza artificiale, pur mostrando capacità in compiti specifici, non eseguono un vero ragionamento logico, ma si affidano a un riconoscimento di schemi probabilistici. Questa dipendenza limita la loro abilità di affrontare problemi nuovi o complessi, come evidenziato dai loro fallimenti nei test. Gary Marcus, esperto di AI, ha commentato che i risultati non fanno altro che confermare come i modelli non eseguano un ragionamento formale; si basano invece su un "sofisticato riconoscimento degli schemi" che risulta fragile di fronte a variazioni o contesti non familiari. Persino fornire agli LLM algoritmi espliciti per risolvere la Torre di Hanoi non ha migliorato le prestazioni, suggerendo che il processo seguito dai modelli non sia logico né intelligente.

Un altro punto di interesse sono le prestazioni superiori durante l'esecuzione di compiti analitici mostrate dai modelli SR rispetto ai modelli generici, come per esempio GPT-4o. I ricercatori sostengono che tali progressi derivano da un maggiore uso di risorse computazionali per elaborare i problemi in passi più piccoli, non da una vera comprensione. Tutto ciò porta in conclusione a porsi diversi interrogativi sul futuro dello sviluppo della IA, con esperti come Andrew Rogoyski dell'Università del Surrey che suggeriscono che l'attuale approccio basato possa aver raggiunto un vicolo cieco se l'intento è ottenere un ragionamento generalizzabile.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Commenti all'articolo (ultimi 5 di 10)

{UtenteAnonimo}
Citando l'incipit: Deduco da ciò che l'autore, se sa che le cosiddette "intelligenze artificiali" non sono veramente intelligenti, saprà allora cos'è l'intelligenza e come definirla. Sarebbe utile ci illuminasse, in quanto noi popolo di bruti, ancora non lo sappiamo. Intendo, veramente non esiste una definizione di... Leggi tutto
16-6-2025 04:32

@ ilio riguardo al fatto che le IA possano raggiungere un livello di autocoscienza, credo che la questione sia piuttosto cosa intendiamo per autocoscienza. Gli animali e persino gli insetti hanno quello che chiamiamo istinto di conservazione. Ma per conservarsi, qualcuno deve prima avere coscienza di sè. Anche le piante reagiscono a ciò... Leggi tutto
15-6-2025 21:20

Spiegato in questo modo il funzionamento delle cosiddette IA è piuttosto chiaro: data una grande quantità di dati viene costruito un modello statistico che in base agli input replica con i dati statistici più rilevanti. Ma, e questo lo studio sembra chiarirlo in modo definitivo, sono risposte statisticamente valide, non corrette.... Leggi tutto
15-6-2025 21:14

{ilio}
A mio parere è meglio non mettere un limite a quello che le IA riusciranno ad 'essere' in futuro. Se la coscienza è il risultato di una enorme quantità di collegamenti fra una enorme quantità di neuroni, presto o tardi anche il silicio (o quant'altro) acquisterà coscienza. Se invece, come... Leggi tutto
15-6-2025 18:20

Credo si debba guardar al lato che le I.A. non sapranno mai scandagliare e tanto meno quindi capire comprendendole:gli Affetti e la Coscienza. Leggi tutto
15-6-2025 15:40

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Cosa fai se non usi un'applicazione da molto tempo?
La lascio nel dispositivo, potrei averne bisogno un giorno
La eliminano. Quando ne avrò bisogno, la scaricherò di nuovo

Mostra i risultati (1465 voti)
Giugno 2025
Richiamati oltre un milione di power bank: potrebbero surriscaldarsi fino a prendere fuoco
La Danimarca lascerà Windows e Microsoft Office, passando a Linux e LibreOffice
La macchina del caffè che fa a meno del serbatoio: estrae l'acqua dall'umidità dell'aria
In realtà i produttori fanno un favore agli utenti!
Il DNS europeo che promette di tutelare i dati personali
Guarda film pirata? Rischi fino a 5.000 euro di multa
Il Q-day è vicino
OneDrive: app e siti possono accedere a tutto il cloud
Windows 11, ennesimo aggiornamento che blocca l'avvio del PC
Maggio 2025
Il cripto-ladro è nella stampante e ruba un milione di dollari
Amazon, la IA ha trasformato la programmazione in una catena di montaggio
Lidar nelle auto: utile per la guida, letale per le fotocamere
Azienda IA in tribunale per il suicidio di un adolescente
Non è proprio legale... ma le sanzioni sono irrisorie
Pirateria, multati in Italia anche gli utenti finali
Tutti gli Arretrati
Accadde oggi - 17 giugno


web metrics