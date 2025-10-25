[ZEUS News - www.zeusnews.it - 25-10-2025] Commenti (1)

Amazon Web Services ha pubblicato un resoconto dettagliato sull'incidente che ha coinvolto DynamoDB, il database NoSQL gestito e altamente scalabile utilizzato da migliaia di clienti per applicazioni critiche. L'interruzione è iniziata alle 09:37 UTC e ha avuto origine da un errore nel sistema di gestione dello storage, che ha impedito l'accesso a una porzione dei dati in una delle zone di disponibilità della regione US-EAST-1. Sebbene DynamoDB sia progettato per replicare i dati su più zone, il sistema di routing interno ha continuato a indirizzare le richieste verso la zona affetta, causando timeout e rallentamenti diffusi.

AWS ha dichiarato che il comportamento del sistema non ha rispettato le aspettative di failover automatico, e che il team ha dovuto intervenire manualmente per reindirizzare il traffico verso le zone sane. L'intervento ha richiesto circa 90 minuti, durante i quali molti clienti hanno riscontrato errori di connessione, degrado delle prestazioni e impossibilità di accedere ai dati. Tra i servizi impattati vi sono applicazioni di e-commerce, piattaforme di streaming, sistemi di pagamento, strumenti di monitoraggio e letti smart trasformatisi in trappole ardenti.

L'azienda ha riconosciuto che l'architettura di DynamoDB, pur essendo distribuita, dipende da alcuni nodi decisionali centralizzati (che costituiscono quindi un Single Point Of Failure) che in questo caso hanno agito in modo non ottimale. In risposta, AWS ha annunciato modifiche al sistema di instradamento delle richieste e una revisione delle logiche di replica e isolamento, con l'obiettivo di garantire che in futuro le zone affette da problemi vengano automaticamente escluse dal traffico operativo.

L'incidente ha riacceso il dibattito sulla dipendenza da infrastrutture cloud centralizzate e sulla necessità di progettare applicazioni con logiche di tolleranza ai guasti più robuste. Alcuni clienti hanno segnalato che, pur avendo configurato meccanismi di caching, l'impatto è stato comunque significativo a causa della natura sincrona di molte operazioni su DynamoDB.

AWS conclude il rapporto con un impegno a migliorare la trasparenza e la comunicazione durante gli eventi critici, promettendo aggiornamenti più frequenti e dettagliati in tempo reale. L'azienda ha anche avviato un programma di revisione con i clienti più colpiti per valutare soluzioni architetturali alternative e strategie di mitigazione.