Le prestazioni della IA? Si testano con Super Mario

Non tutti gli esperti però pensano che un videogioco sia il mezzo migliore per valutare la bontà dei modelli.



[ZEUS News - www.zeusnews.it - 10-03-2025]

super mario test ia
Foto di Raymond Chiu.

Qualche tempo fa Anthropic aveva rivelato che, per valutare le capacità di ragionamento della propria IA Claude 3.7, aveva utilizzato il videogioco Pokémon: in questo modo l'azienda poteva valutare la capacità del modello di trovare le soluzioni migliori.

Ora però i ricercatori dell'Hao AI Lab (parte dell'Università della California a San Driego) sostengono che la scelta del gioco da usare per valutare la IA non sia stata vincente: sarebbe infatti stato meglio usare Super Mario Bros.

Per dimostrarlo hanno costretto quattro diversi modelli a giocare allo storico gioco o, meglio, a una sua incarnazione recente: tramite il framework GamingAgent hanno garantito alle quattro IA in questione il controllo di un clone di Super Mario.

Le IA messe alla prova sono state il già citato Claude 3.7, Claude 3.5, Gemini 1.5 Pro (Google) e GPT-4o (OpenAI).

I ricercatori hanno fornito le indicazioni di base - che cosa fare quando si incontra un ostacolo o un nemico - ma sostengono che ogni modello ha poi dovuto imparare da sé come gestire il gioco, sviluppando strategie complesse e adattandosi di volta in volta alle diverse sfide proposte dall'avanzamento di Super Mario nel livello.

Ed è qui che si dimostrerebbe la superiorità di Super Mario Bros su Pokémon come strumento per valutare le capacità della IA: un platform, infatti, richiede - sempre secondo i ricercatori lo sviluppo di manovre complicate e di diverse strategie di gioco, ma anche di reagire rapidamente alle situazioni.

Proprio quest'ultima caratteristica avrebbe causato la caduta dei modelli che "ragionano", come GPT-4o e Claude 3.7, rispetto a quelli standard: per arrivare al miglior risultato, il "ragionamento" richiede alcuni secondi per essere sviluppato; ma in un gioco come Super Mario anche un solo secondo può fare la differenza tra il completamento del livello e la perdita di una vita.

Ecco perché i modelli tradizionali nel test di Super Mario si sono comportati meglio: anche se più imprecisi rispetto ai loro colleghi più evoluti, hanno saputo avere tempi di reazione inferiori.

Non tutti gli esperti di IA sono però d'accordo con le conclusioni dei ricercatori californiani né, se è per quello, con quelle di Anthropic: ritengono infatti che la capacità di gestire un videogioco non sia poi così importante per definire la bontà di un modello di IA.

Richard Socher, ex responsabile della IA per Salesforce e fondatore di You.com, ha di recente commentato: «Penso proprio che i giochi tendano a entusiasmare parecchio le persone, che è qualcosa in cui si possono immedesimare. Hanno giocato a quei giochi e si ricordano quant'erano difficili. Ma è un po' come entusiasmarsi perché un computer sa moltiplicare numeri molto grandi: alla fine quei sistemi non sono poi così intelligenti. Non si crea un vero valore, al di là del gioco».

Anche Andrej Karpathy, di OpenAI, ha dubbi in proposito: «La mia reazione è che ci sia una crisi di valutazione» ha scritto su X. «Non so proprio quali metriche considerare in questo momento».

Se anche gli esperti non sono d'accordo su ciò che consente di definire "efficace" una IA diventa particolarmente difficile credere agli annunci del marketing e alle promesse che tutti gli attori del settore fanno quasi quotidianamente.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti
Vite infinite a Super Mario, scoperto trucco dopo 30 anni
Il Game Boy compie 25 anni

Commenti all'articolo (4)

Appunto, di guerre di marketing si tratta, volte a solleticare il subconscio delle pecore da tosare - ovvero gli utenti - dove, quando la si spara grossa e emotivamente coinvolgente - in fondo chi, a parte me, non ha giocato a Pokemon o a Super Mario - si hanno più probabilità di vincere la partita. Leggi tutto
15-3-2025 14:30

In realtà ci sono due tipi di macchine di IA, quello che generano un linguaggio simil naturale, come quelle che citate nell'articolo utili a conversare e mostrare suggerimenti, ed altre che invece si occupano di gestione di processi industriali a integrazione verticale e con tempi di latenza nell'ordine di pochissimi millisecondi, e le... Leggi tutto
14-3-2025 15:27

{sahel}
Se chiedete a me di valutare Gemini, direi che sembra di parlare con un idiota, un idiota-sapiente come dicono i francesi. Ho la registrazione di dialoghi surreali fatte anche qualche giorno fa con la versione Flash, e sembrano quelle scenette che costruiscono i comici e che sono piene di nonsensi; onestamente posso dire che siamo ancora... Leggi tutto
10-3-2025 15:53

:twisted: Leggi tutto
10-3-2025 09:23

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Chi di questi 10 non ha meritato il premio Nobel per la Pace?
Elihu Root, segretario di Stato USA, vincitore nel 1912, indagato per la repressione degli indipendentisti filippini.
Aristide Briand, politico francese, vincitore nel 1926, nonostante molti sostengano che gli accordi da lui voluti abbiano portato la Germania a tentare la successiva espansione verso est.
Frank Kellogg, vincitore nel 1929: la sua idea per evitare le guerre fu sconfessata di lì a breve dalla politica tedesca.
Carl von Ossietzky, giornalista tedesco, vincitore nel 1935 per aver rivelato la politica tedesca di riarmo in violazione dei trattati. Meritava il premio, ma la tempistica fu pessima: venne deportato in un campo di concentramento.
Nessuno: nel 1948 il premio non venne assegnato. Sarebbe potuto andare a Mohandas Ghandi, ma era stato assassinato e il Comitato non permise che il premio fosse assegnato alla memoria.
Henry Kissinger e Le Duc Tho, vincitori nel 1973 per aver negoziato il ritiro delle truppe USA dal Vietnam. Il primo però approvò il bombardamento contro la Cambogia; il secondo rifiutò il premio.
Yasser Arafat, Shimon Peres e Yitzakh Rabin, vincitori nel 1994, sebbene gli accordi di Oslo abbiano avuto effetti molto brevi.
Kofi Annan e le Nazioni Unite, vincitori nel 2001, investigato nel 2004 per il coinvolgimento del figlio in un caso di pagamenti illegali nel programma Oil for Food.
Wangari Muta Maathai, vincitrice nel 2004, convinta che il virus HIV sia stato creato in laboratorio e sfuggito per errore.
Barack Obama, vincitore nel 2009, appena eletto presidente degli USA.

Mostra i risultati (2091 voti)
Giugno 2025
Il DNS europeo che promette di tutelare i dati personali
Guarda film pirata? Rischi fino a 5.000 euro di multa
Il Q-day è vicino
OneDrive: app e siti possono accedere a tutto il cloud
Windows 11, ennesimo aggiornamento che blocca l'avvio del PC
Maggio 2025
Il cripto-ladro è nella stampante e ruba un milione di dollari
Amazon, la IA ha trasformato la programmazione in una catena di montaggio
Lidar nelle auto: utile per la guida, letale per le fotocamere
Azienda IA in tribunale per il suicidio di un adolescente
Non è proprio legale... ma le sanzioni sono irrisorie
Pirateria, multati in Italia anche gli utenti finali
Bancomat da attivare e complessità digitale
Un ''diritto a riparare'' piccolo, virtuoso e originale
Siti per adulti, la verifica dell'età non avverrà tramite SPID
Gli hard disk in ceramica praticamente indistruttibili di Western Digital
Tutti gli Arretrati
Accadde oggi - 10 giugno


web metrics