Invece, i ritardi nella propagazione dello stato della rete vengono propagati a un sistema di bilanciamento del carico di rete su cui i servizi AWS fanno affidamento per la stabilità. Di conseguenza, i clienti AWS hanno riscontrato errori di connessione dalla regione Stati Uniti orientali-1. Le funzioni di rete AWS interessate sono la creazione e la modifica di cluster Redshift, le chiamate Lambda e il lancio di attività Forget come Apache Airflow, operazioni del ciclo di vita Outpost e flussi di lavoro gestiti per AWS Support Center.

Per ora, Amazon ha disabilitato a livello globale l’automazione DynamoDB DNS Planner e DNS Enactor mentre lavora per correggere le condizioni di gara e aggiungere protezioni per impedire l’applicazione di piani DNS errati. Gli ingegneri stanno inoltre apportando modifiche a EC2 e al suo bilanciatore del carico di rete.

Un racconto ammonitore

Ookla ha sottolineato un fattore che contribuisce non menzionato da Amazon: la concentrazione di clienti che instradano le loro connessioni attraverso l’endpoint US-East-1 e l’impossibilità di spostarsi nella regione. Okla ha spiegato:

L’area interessata US-East-1 è l’hub più vecchio e più utilizzato di AWS. La densità regionale significa che anche le app globali spesso hanno identità, stato o metadati che fluiscono lì. Quando una dipendenza regionale fallisce, come nel caso di questo evento, gli effetti si propagano a livello globale poiché molti “globali” attraversano la Virginia ad un certo punto.

Le applicazioni moderne concatenano servizi gestiti come storage, code e funzioni serverless. Se il DNS non è in grado di risolvere in modo affidabile un endpoint critico (ad esempio, è coinvolta l’API DynamoDB), gli errori si riversano a cascata sulle API upstream e causano errori visibili agli utenti nelle app che non sono connesse ad AWS. Downdetector su Snapchat, Roblox, Signal, Ring, HMRC e altri hanno registrato proprio questo.

L’evento funge da ammonimento per tutti i servizi cloud: più importante che prevenire condizioni di competizione e bug simili è eliminare i singoli punti di errore nella progettazione della rete.

“La via da seguire non è quella di un fallimento zero, ma di un fallimento, ottenuto attraverso la progettazione multi-regione, la diversificazione delle dipendenze e la preparazione disciplinata degli incidenti, con una supervisione normativa che si muove verso il trattamento del cloud come una componente sistemica della resilienza nazionale ed economica”, ha affermato Okla.

Collegamento alla fonte