Messi alla prova con degli indovinelli, anche gli LLM migliori hanno ottenuto risultati imbarazzanti.
[ZEUS News - www.zeusnews.it - 13-06-2025]
Che le cosiddette "intelligenze artificiali" non siano per davvero intelligenti è qualcosa di cui tutti dovremmo ormai essere coscienti. Ora uno studio condotto da sei ricercatori di Apple conferma quanto già si sospettava: i grandi modelli linguistici (LLM) non sono effettivamente in grado di ragionare, in particolare quelli progettati per il "ragionamento simulato" (SR).
Pubblicato poco prima della WWDC 2025, lo studio intitolato The Illusion of Thinking (L'illusione del pensiero) ha analizzato le prestazioni di questi modelli facendo loro affrontare dei rompicapo, come la Torre di Hanoi e il problema dell'attraversamento del fiume. Sono stati messi in evidenza dei limiti che mettono in discussione l'idea che tali sistemi possano ragionare come gli esseri umani - ora, ma anche in futuro. I ricercatori hanno testato oltre 20 modelli, tra cui OpenAI's o3-mini, DeepSeek R1 e Claude 3.7 Sonnet; hanno operato in maniera tale da evitare la contaminazione dei dati, un problema comune nei benchmark matematici tradizionali.
I risultati mostrano che i modelli SR, pur comportandosi bene quando devono gestire compiti semplici, falliscono completamente quando la complessità aumenta oltre una certa soglia. Per esempio, nella Torre di Hanoi con 10 o più dischi, tutti i modelli testati hanno registrato un tasso di successo pari a zero, anche con risorse computazionali adeguate. In certi casi i risultati sono particolarmente interssanti: il modello Claude 3.7 Sonnet per esempio è riuscito a eseguire fino a 100 mosse corrette nella Torre di Hanoi, ma ha fallito la risoluzione di un indovinello di attraversamento del fiume che richiedeva solo cinque mosse; da ciò i ricercatori hanno dedotto che i fallimenti siano specifici del compito piuttosto che legati alla capacità computazionale.
Un altro aspetto emerso dallo studio è il cosiddetto fenomeno del "limite di scala controintuitivo". A mano a mano che la complessità dei problemi aumenta, i modelli SR inizialmente generano più "token di pensiero" per elaborare le soluzioni; oltre una certa soglia invece riducono lo sforzo di ragionamento, anche se dispongono di risorse sufficienti. Questo comportamento è stato attribuito a una dipendenza da pattern probabilistici, anziché da un ragionamento logico formale, e a volte andando proprio contro la logica. Per esempio nello studio si legge che i modelli «interpretano le frasi che parlano di "sconti" come se parlassero di "moltiplicazioni", indipendentemente dal contesto. Ciò ci spinge a chiederci se questi modelli davvero abbiano compreso i concetti matematici con sufficiente esattezza».
La ricerca evidenzia anche la fragilità dei modelli di fronte a variazioni minime. Cambiare i nomi propri in un problema può alterare i risultati fino al 10%: è un livello di variabilità che non ci si aspetterebbe da uno studente con una reale comprensione matematica. Inoltre, l'introduzione di informazioni irrilevanti, come dettagli superflui nei problemi, ha causato cali drastici di accuratezza, con perdite dal 17,5% al 65,7% rispetto al benchmark GSM8K.
Gli autori dello studio concludono che i modelli attuali di intelligenza artificiale, pur mostrando capacità in compiti specifici, non eseguono un vero ragionamento logico, ma si affidano a un riconoscimento di schemi probabilistici. Questa dipendenza limita la loro abilità di affrontare problemi nuovi o complessi, come evidenziato dai loro fallimenti nei test. Gary Marcus, esperto di AI, ha commentato che i risultati non fanno altro che confermare come i modelli non eseguano un ragionamento formale; si basano invece su un "sofisticato riconoscimento degli schemi" che risulta fragile di fronte a variazioni o contesti non familiari. Persino fornire agli LLM algoritmi espliciti per risolvere la Torre di Hanoi non ha migliorato le prestazioni, suggerendo che il processo seguito dai modelli non sia logico né intelligente.
Un altro punto di interesse sono le prestazioni superiori durante l'esecuzione di compiti analitici mostrate dai modelli SR rispetto ai modelli generici, come per esempio GPT-4o. I ricercatori sostengono che tali progressi derivano da un maggiore uso di risorse computazionali per elaborare i problemi in passi più piccoli, non da una vera comprensione. Tutto ciò porta in conclusione a porsi diversi interrogativi sul futuro dello sviluppo della IA, con esperti come Andrew Rogoyski dell'Università del Surrey che suggeriscono che l'attuale approccio basato possa aver raggiunto un vicolo cieco se l'intento è ottenere un ragionamento generalizzabile.
Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News
ti consigliamo di iscriverti alla Newsletter gratuita.
Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui
sotto, inserire un commento
(anche anonimo)
o segnalare un refuso.
© RIPRODUZIONE RISERVATA |
|
|
||
|