Invece, i ritardi nella propagazione dello stato della rete vengono propagati a un sistema di bilanciamento del carico di rete su cui i servizi AWS fanno affidamento per la stabilità. Di conseguenza, i clienti AWS hanno riscontrato errori di connessione dalla regione Stati Uniti orientali-1. Le funzioni di rete AWS interessate sono la creazione e la modifica di cluster Redshift, le chiamate Lambda e il lancio di attività Forget come Apache Airflow, operazioni del ciclo di vita Outpost e flussi di lavoro gestiti per AWS Support Center.
Per ora, Amazon ha disabilitato a livello globale l’automazione DynamoDB DNS Planner e DNS Enactor mentre lavora per correggere le condizioni di gara e aggiungere protezioni per impedire l’applicazione di piani DNS errati. Gli ingegneri stanno inoltre apportando modifiche a EC2 e al suo bilanciatore del carico di rete.
Un racconto ammonitore
Ookla ha sottolineato un fattore che contribuisce non menzionato da Amazon: la concentrazione di clienti che instradano le loro connessioni attraverso l’endpoint US-East-1 e l’impossibilità di spostarsi nella regione. Okla ha spiegato:
L’area interessata US-East-1 è l’hub più vecchio e più utilizzato di AWS. La densità regionale significa che anche le app globali spesso hanno identità, stato o metadati che fluiscono lì. Quando una dipendenza regionale fallisce, come nel caso di questo evento, gli effetti si propagano a livello globale poiché molti “globali” attraversano la Virginia ad un certo punto.
Le applicazioni moderne concatenano servizi gestiti come storage, code e funzioni serverless. Se il DNS non è in grado di risolvere in modo affidabile un endpoint critico (ad esempio, è coinvolta l’API DynamoDB), gli errori si riversano a cascata sulle API upstream e causano errori visibili agli utenti nelle app che non sono connesse ad AWS. Downdetector su Snapchat, Roblox, Signal, Ring, HMRC e altri hanno registrato proprio questo.
L’evento funge da ammonimento per tutti i servizi cloud: più importante che prevenire condizioni di competizione e bug simili è eliminare i singoli punti di errore nella progettazione della rete.
“La via da seguire non è quella di un fallimento zero, ma di un fallimento, ottenuto attraverso la progettazione multi-regione, la diversificazione delle dipendenze e la preparazione disciplinata degli incidenti, con una supervisione normativa che si muove verso il trattamento del cloud come una componente sistemica della resilienza nazionale ed economica”, ha affermato Okla.






