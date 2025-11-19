[ZEUS News - www.zeusnews.it - 19-11-2025] Commenti (1)

Lo scorso 18 novembre (intorno a mezzogiorno secondo l'ora italiana) la rete di Cloudflare ha registrato un'interruzione significativa che ha impedito la corretta consegna del traffico verso numerosi siti e servizi che utilizzano la sua infrastruttura. L'incidente è durato complessivamente circa tre ore per il ripristino principale e fino a sera per la risoluzione definitiva di alcuni effetti residui. Ha generato errori HTTP 5xx su scala globale e ha reso inaccessibili piattaforme come X, ChatGPT, Spotify, Zoom, Shopify, League of Legends e molte altre, inclusi dashboard e API di Cloudflare stessa.

Cloudflare ora ha spiegato quale sia stata la causa di tutto: essa è da ricondurre a un file di configurazione utilizzato dal modulo Bot Management per identificare e bloccare traffico malevolo o automatizzato. Questo file viene generato automaticamente ogni cinque minuti tramite una query su un cluster di database ClickHouse. Una modifica alle autorizzazioni implementata progressivamente sul cluster per migliorare la gestione dei permessi ha portato a un raddoppio improvviso delle dimensioni del file, che ha superato i limiti gestibili dal software presente sulle macchine responsabili dell'instradamento del traffico.

Inizialmente il cluster produceva alternativamente versioni corrette e versioni errate del file, creando un comportamento oscillante che simulava un possibile attacco DDoS e complicava la diagnosi. Successivamente l'intero cluster ha iniziato a generare solo dati errati, propagando il problema a tutta la rete. Non predisposto a gestire file di tali dimensioni, il software di routing entrava in crash ripetutamente, interrompendo il flusso del traffico attraverso CDN, protezione DDoS, firewall, reverse proxy e altri servizi.

Cloudflare ha escluso categoricamente che si sia trattato di un attacco informatico o di attività malevola esterna. Il problema è stato mitigato sospendendo la generazione e la distribuzione del file incriminato, ripristinando una versione precedente valida e applicando patch al proxy per prevenire crash simili in futuro. Alcune misure intermedie, come il bypass temporaneo del proxy per servizi come Workers KV e Cloudflare Access, hanno consentito di ridurre l'impatto su sottosistemi specifici già a partire dalle 14:04 (ora italiana).

L'incidente ha interessato una porzione rilevante del web: Cloudflare gestisce traffico per circa il 20% dei siti Internet a livello mondiale e opera in oltre 330 città con connessioni dirette a migliaia di reti. Sebbene non siano stati resi pubblici dati precisi sul numero esatto di domini colpiti, piattaforme di monitoraggio come Downdetector hanno registrato picchi di decine di migliaia di segnalazioni in poche ore, con effetti visibili in tutte le regioni.

L'azienda ha riconosciuto la gravità del disservizio, sottolineando che qualsiasi interruzione risulta inaccettabile, data l'importanza del ruolo ricoperto nell'ecosistema internet. Sono state annunciate revisioni ai processi di validazione delle dimensioni dei file di configurazione, controlli più stringenti sulle modifiche ai cluster di database e miglioramenti alla resilienza del software di routing. Questo episodio si inserisce in una serie di interruzioni recenti che hanno coinvolto grandi provider cloud, evidenziando la dipendenza di vaste porzioni del web da pochi operatori infrastrutturali chiave.