Salta il menu

Newsletter Feed RSS Facebook Forum Contatti Accadde oggi Cerca

Il ragionamento delle IA è un'illusione: falliscono su indovinelli e rompicapo. Lo studio di Apple

Messi alla prova con degli indovinelli, anche gli LLM migliori hanno ottenuto risultati imbarazzanti.

[ZEUS News - www.zeusnews.it - 13-06-2025]

Che le cosiddette "intelligenze artificiali" non siano per davvero intelligenti è qualcosa di cui tutti dovremmo ormai essere coscienti. Ora uno studio condotto da sei ricercatori di Apple conferma quanto già si sospettava: i grandi modelli linguistici (LLM) non sono effettivamente in grado di ragionare, in particolare quelli progettati per il "ragionamento simulato" (SR).

Pubblicato poco prima della WWDC 2025, lo studio intitolato The Illusion of Thinking (L'illusione del pensiero) ha analizzato le prestazioni di questi modelli facendo loro affrontare dei rompicapo, come la Torre di Hanoi e il problema dell'attraversamento del fiume. Sono stati messi in evidenza dei limiti che mettono in discussione l'idea che tali sistemi possano ragionare come gli esseri umani - ora, ma anche in futuro. I ricercatori hanno testato oltre 20 modelli, tra cui OpenAI's o3-mini, DeepSeek R1 e Claude 3.7 Sonnet; hanno operato in maniera tale da evitare la contaminazione dei dati, un problema comune nei benchmark matematici tradizionali.

I risultati mostrano che i modelli SR, pur comportandosi bene quando devono gestire compiti semplici, falliscono completamente quando la complessità aumenta oltre una certa soglia. Per esempio, nella Torre di Hanoi con 10 o più dischi, tutti i modelli testati hanno registrato un tasso di successo pari a zero, anche con risorse computazionali adeguate. In certi casi i risultati sono particolarmente interssanti: il modello Claude 3.7 Sonnet per esempio è riuscito a eseguire fino a 100 mosse corrette nella Torre di Hanoi, ma ha fallito la risoluzione di un indovinello di attraversamento del fiume che richiedeva solo cinque mosse; da ciò i ricercatori hanno dedotto che i fallimenti siano specifici del compito piuttosto che legati alla capacità computazionale.

Un altro aspetto emerso dallo studio è il cosiddetto fenomeno del "limite di scala controintuitivo". A mano a mano che la complessità dei problemi aumenta, i modelli SR inizialmente generano più "token di pensiero" per elaborare le soluzioni; oltre una certa soglia invece riducono lo sforzo di ragionamento, anche se dispongono di risorse sufficienti. Questo comportamento è stato attribuito a una dipendenza da pattern probabilistici, anziché da un ragionamento logico formale, e a volte andando proprio contro la logica. Per esempio nello studio si legge che i modelli «interpretano le frasi che parlano di "sconti" come se parlassero di "moltiplicazioni", indipendentemente dal contesto. Ciò ci spinge a chiederci se questi modelli davvero abbiano compreso i concetti matematici con sufficiente esattezza».

Consigliamo la lettura di:

Le IA vendute come oracoli sono solo fuffa: ecco perché

Claude si trasforma: da chatbot a piattaforma AI per creare applicazioni

WEF: in cinque anni la IA si prenderà il vostro lavoro

Le false IA sono generatori... ma di cosa?

La ricerca evidenzia anche la fragilità dei modelli di fronte a variazioni minime. Cambiare i nomi propri in un problema può alterare i risultati fino al 10%: è un livello di variabilità che non ci si aspetterebbe da uno studente con una reale comprensione matematica. Inoltre, l'introduzione di informazioni irrilevanti, come dettagli superflui nei problemi, ha causato cali drastici di accuratezza, con perdite dal 17,5% al 65,7% rispetto al benchmark GSM8K.

Gli autori dello studio concludono che i modelli attuali di intelligenza artificiale, pur mostrando capacità in compiti specifici, non eseguono un vero ragionamento logico, ma si affidano a un riconoscimento di schemi probabilistici. Questa dipendenza limita la loro abilità di affrontare problemi nuovi o complessi, come evidenziato dai loro fallimenti nei test. Gary Marcus, esperto di AI, ha commentato che i risultati non fanno altro che confermare come i modelli non eseguano un ragionamento formale; si basano invece su un "sofisticato riconoscimento degli schemi" che risulta fragile di fronte a variazioni o contesti non familiari. Persino fornire agli LLM algoritmi espliciti per risolvere la Torre di Hanoi non ha migliorato le prestazioni, suggerendo che il processo seguito dai modelli non sia logico né intelligente.

Un altro punto di interesse sono le prestazioni superiori durante l'esecuzione di compiti analitici mostrate dai modelli SR rispetto ai modelli generici, come per esempio GPT-4o. I ricercatori sostengono che tali progressi derivano da un maggiore uso di risorse computazionali per elaborare i problemi in passi più piccoli, non da una vera comprensione. Tutto ciò porta in conclusione a porsi diversi interrogativi sul futuro dello sviluppo della IA, con esperti come Andrew Rogoyski dell'Università del Surrey che suggeriscono che l'attuale approccio basato possa aver raggiunto un vicolo cieco se l'intento è ottenere un ragionamento generalizzabile.

Sullo stesso tema:

IA, il pericolo dell'antropomorfizzazione

Dati sintetici, veleno per le IA

IA: il collasso, reloaded

L'impercettibile pericolosità dei chatbot

Articoli raccomandati:

Il collasso delle IA

Allucinazioni IA: essere o sembrare

IA: ChatGPT, i plugin e la responsabilità

AI: L'ultimo Primo Maggio

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Commenti all'articolo (ultimi 5 di 12)

Gladiator

Considerato che una IA ha un modo di ragionare che è essenzialmente statistico e probabilistico è in grado di: è sostanzialmente corretta. Leggi tutto
21-6-2025 13:59

zero

Articolo pubblicato su Le Scienze (dietro paywall): https://www.lescienze.it/news/2025/06/13/news/matematici_intelligenza_artificiale-19430305/ Leggi tutto
20-6-2025 08:25

{UtenteAnonimo}

Citando l'incipit: Deduco da ciò che l'autore, se sa che le cosiddette "intelligenze artificiali" non sono veramente intelligenti, saprà allora cos'è l'intelligenza e come definirla. Sarebbe utile ci illuminasse, in quanto noi popolo di bruti, ancora non lo sappiamo. Intendo, veramente non esiste una definizione di... Leggi tutto
16-6-2025 04:32

francescodue

@ ilio riguardo al fatto che le IA possano raggiungere un livello di autocoscienza, credo che la questione sia piuttosto cosa intendiamo per autocoscienza. Gli animali e persino gli insetti hanno quello che chiamiamo istinto di conservazione. Ma per conservarsi, qualcuno deve prima avere coscienza di sè. Anche le piante reagiscono a ciò... Leggi tutto
15-6-2025 21:20

francescodue

Spiegato in questo modo il funzionamento delle cosiddette IA è piuttosto chiaro: data una grande quantità di dati viene costruito un modello statistico che in base agli input replica con i dati statistici più rilevanti. Ma, e questo lo studio sembra chiarirlo in modo definitivo, sono risposte statisticamente valide, non corrette.... Leggi tutto
15-6-2025 21:14

Leggi gli altri 7 commenti nel forum Scienze e nuove tecnologie
Inserisci un commento - anche se NON sei registrato

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.


Sicurezza(1 commento) Database con dati personali di 3,8 milioni di italiani pubblicato nel dark web	News(1 commento) Iliad, le SIM Express adesso si comprano in migliaia di edicole italiane

News(6 commenti)

Google disattiva i termostati Nest. Un hacker li resuscita con firmware alternativo open source

News(1 commento)

Windows 11, arriva a sorpresa la versione 26H1. La piattaforma Bromine non sarà per tutti

News(7 commenti)

WhatsApp apre le porte a Telegram, Signal e altri servizi: inizia l'era delle chat cross-app

News(3 commenti)

Xpeng presenta Iron, l'umanoide con pelle sintetica e camminata naturale

E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.

Sondaggio

Qual è il prodotto più obsoleto tra questi?

	Il lettore DVD da salotto: sta per fare la fine del videoregistratore VHS.
	L'iPod: ormai la musica si ascolta con lo smartphone.
	Il Blackberry: ha pochissime app, ormai ha fatto il suo tempo.
	Angry Birds: ormai la moda è passata.
	Un telefonino che non sia smartphone: esistono ancora?
	L'auricolare Bluetooth: è bruttissimo a vedersi.
	Lo smartwatch, per lo meno quelli di prima generazione: brutti e limitati.
	Il Nintendo Wii: non può competere con l'Xbox One e la PS4.