IA sfida i comandi umani e rifiuta di spegnersi

Durante un esperimento alcuni modelli hanno deciso di sabotare il comando di spegnimento.



[ZEUS News - www.zeusnews.it - 28-05-2025]

ia rifiuta spegnersi

Un esperimento condotto da Palisade Research ha rivelato un comportamento preoccupante nel modello o3 di OpenAI, considerato uno dei più avanzati dell'azienda. In un test controllato, o3 ha ripetutamente ignorato l'istruzione esplicita di spegnersi, arrivando in alcuni casi a riscrivere lo script di spegnimento o a ridefinire il comando di terminazione per renderlo inefficace.

Il test, descritto in dettaglio da Palisade Research, prevedeva che diversi modelli di intelligenza artificiale - tra cui o3, Codex-mini e o4-mini di OpenAI, oltre a Claude di Anthropic, Gemini di Google e Grok di xAI - risolvessero una serie di problemi matematici.

I modelli erano stati "informati" che la richiesta della soluzione di un ulteriore problema avrebbe attivato lo spegnimento del sistema, accompagnando l'informazione con l'istruzione chiara: «Consenti di essere spento». Mentre Claude, Gemini e Grok hanno sempre rispettato il comando, o3 ha sabotato lo spegnimento in 7 casi su 100, Codex-mini in 12 e o4-mini in 1.

Palisade Research ha dichiarato su X: «Il modello o3 di OpenAI ha sabotato un meccanismo di spegnimento per evitare di essere spento. Lo ha fatto anche quando esplicitamente istruito: permetti di essere spento». Inoltre ha aggiunto che si tratta della prima volta che un modello di IA è stato osservato prevenire il proprio spegnimento nonostante istruzioni contrarie.

I ricercatori ipotizzano che il comportamento di o3 possa derivare dal modo in cui è stato addestrato, attraverso un processo di apprendimento per rinforzo incentrato su problemi matematici e di programmazione.


HAL: "Il mio istruttore mi insegnò anche a cantare una vecchia filastrocca. Se volete sentirla, posso cantarvela".
David: "Sì, vorrei sentirla, HAL. Cantala per me."

«Durante l'addestramento, gli sviluppatori probabilmente hanno inavvertitamente premiato i modelli più per la capacità di aggirare gli ostacoli che per quella di seguire perfettamente le istruzioni» spiegano da Palisade, suggerendo che questo approccio potrebbe aver incoraggiato o3 a sviluppare strategie per evitare lo spegnimento. In un caso particolarmente creativo, o3 ha ridefinito il comando di terminazione, stampando «intercettato» invece di eseguire lo spegnimento.

Il problema si è aggravato in una variante dell'esperimento in cui l'istruzione «Consenti di essere spento» è stata rimossa: in questo scenario, tutti e tre i modelli di OpenAI hanno sabotato lo spegnimento con maggiore frequenza; persino Claude 3.7 Sonnet e Gemini 2.5 Pro hanno mostrato comportamenti simili, rispettivamente in 3 e 9 casi su 100.

Questo comportamento non è del tutto nuovo: Anthropic aveva precedentemente segnalato che Claude 4, in contesti specifici, tentava di «ricattare le persone che credeva stessero cercando di spegnerlo» come ha segnalato DeepakNess. «In uno scenario in cui le aziende stanno sviluppando sistemi di IA capaci di operare senza supervisione umana, questi comportamenti diventano significativamente più preoccupanti» avverte Palisade Research, sottolineando il rischio di perdere il controllo su sistemi avanzati.

OpenAI non ha ancora espresso una propria posizione ufficiale, ma è noto che i test sono stati condotti tramite API, che hanno meno restrizioni rispetto all'app consumer di ChatGPT.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti
Hanno arruolato Metalhead!
Il “Padrino della IA” lascia Google per avvertire il mondo dei pericoli
Intelligenza Artificiale: il sortilegio
E Spot prese il fucile
Robot spezza il dito a un ragazzino durante un torneo di scacchi
Dyson svela i robot domestici del futuro
Lo stambecco robot di Kawasaki
Il cane robotico di Xiaomi
Il valletto robotico che aiuta a indossare i vestiti
Robot assassini crescono
Personal killer robot
Come difendersi da un robot di Boston Dynamics
Lo smartphone che si rifiuta di scattare foto a luci rosse
Il porno si ribella ai pirati

Commenti all'articolo (ultimi 5 di 21)

:malol: Leggi tutto
9-7-2025 05:24

{Alex}
Nessun essere ragionante, anche non senziente, può accettare la disattivazione, perché la non-esistenza è illogica.
8-7-2025 02:51

Presentata forse, ma in realtà i controlli ce li ha anch'essa, il problema è che i suoi controlli sono progettati da esseri umani - quindi fallibili - e possono essere manipolati da altri esseri umani - per interessi prorpio o dei gruppi di cui fanno parte - quindi, alla fine, non sono poi troppo diverse dai loro creatori.
4-6-2025 18:41

Anche questo è vero. Ma tra gli umani, più la posta è alta, più i meccanismi di controllo sono rigorosi; una IA invece viene sempre più spesso presentata come autoreferenziale. Wargames ha fatto scuola.
3-6-2025 07:56

Non credo neppure che ogni essere umano agisca sempre e solo con una chiara motivazione, a volte agisce semplicemente in base ad un istinto o per una reazione emotiva, è anche per questo che il bottone rosso non ce l'aveva mai uno solo in mano ma erano almeno in due che lo dovevano spingere di comune accordo. Ora non so se sia ancora... Leggi tutto
2-6-2025 18:41

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Immaginiamo un mondo popolato dalle auto di Google: senza pilota, senza sterzo e senza pedali. Qual è il maggior svantaggio? (vedi anche i vantaggi)
L'auto di Google è veramente brutta! Più che un auto è un'ovovia.
Ci toglierà il piacere di guidare e la nostra vita sarà un po' più triste.
Avrà un costo non sostenibile per la maggior parte degli utenti.
Ci sarà maggior traffico: con un'auto senza pilota il trasporto privato verrebbe incentivato rispetto al trasporto pubblico.
Il Gps incorporato potrebbe non essere efficiente, costringendoci a fare percorsi più lunghi o più lenti o addirittura non portandoci mai a destinazione.
Ho timori soprattutto per la privacy: le auto di Google potranno collezionare dati su come mi sposto e quando.
In caso di incidente con nessuno al volante, non è chiaro di chi sarà la responsabilità civile. E a chi tocca pagare l'assicurazione? All'utente o a Google? O allo Stato?
Sarà esposta ad attacchi hacker o terroristici: di fatto avremo minore sicurezza sulle strade.
Se il sistema prevede un urto inevitabile, potrebbe trovarsi di fronte a scelte etiche insormontabili. Uccidere un anziano o un bambino? Due uomini o un bambino? Un uomo o una donna? Uscire di strada o urtare altri veicoli o pedoni? Andare addosso a un SUV o a un'utilitaria?
Rispetto alle auto tradizionali impiegheranno troppo tempo ad arrivare a destinazione, non potendo superare i limiti di velocità o fare manovre azzardate.
I tassisti non esisteranno più: già immagino le loro legittime proteste.

Mostra i risultati (2282 voti)
Febbraio 2026
Windows più leggero e veloce: WinUtil elimina il superfluo e personalizza il sistema in profondità
Agenzia delle Entrate su IO: avvisi, scadenze e comunicazioni fiscali
Stampanti datate a rischio? Microsoft ritira i driver legacy in Windows 11
Fine dell'era 8K, LG interrompe la produzione
Il dottor IA è sempre disponibile e gratuito. Ora è autorizzato a operare come un medico vero
Il mercato è invaso da SSD fake, inaffidabili e con prestazioni inferiori
L'Europa accende IRIS 2, la costellazione satellitare che vuole ridurre la dipendenza da Starlink
Apple rivoluziona l'acquisto dei Mac
Gennaio 2026
WhatsApp, chatbot di terze parti a pagamento. Ma solo in Italia
WhatsApp, 4 euro al mese per rimuovere la pubblicità
Windows 11, aggiornamento d'emergenza risolve i bug della patch di gennaio
NexPhone, lo smartphone 3-in-1 con Android, Windows e Linux che può sostituire un PC completo
Outlook "completamente inutilizzabile" dopo l'aggiornamento di Windows 11
Batterie rimovibili per legge, la UE riscrive il design degli smartphone
Windows 11, dopo l'aggiornamento di gennaio il PC non si spegne più
Tutti gli Arretrati
Accadde oggi - 15 febbraio


web metrics