AWS rétablit ses services suite à la panne qui a touché des applications partout dans le monde

Une panne majeure sur une importante plateforme de cloud computing a perturbé une large portion d’Internet lundi, affectant de nombreux services pendant plusieurs heures.

Une partie du Web paralysée

Des services variés, comme la plateforme de réservation de logements Airbnb, le réseau social Reddit, ainsi que des jeux populaires tels que Roblox et Brawl Stars, ont subi des interruptions. Cela a été causé par un incident survenu aux États-Unis sur Amazon Web Services (AWS), la solution de cloud d’Amazon. Des applications largement utilisées, notamment Slack, Snapchat et Fortnite, ont également été touchées.

Vers minuit, après environ quinze heures de gestion de la crise, l’opérateur de cette infrastructure cruciale pour le monde numérique a annoncé que l’incident était complètement résolu, prévoyant un retour à la normalité dans les deux heures suivantes, le temps nécessaire pour traiter les demandes en attente.

Cette perturbation a entraîné des paiements bloqués, des livraisons suspendues et a entravé diverses activités professionnelles et personnelles, illustrant ainsi la dépendance croissante envers les infrastructures des géants technologiques américains.

AWS rétablit ses services

La domination d’Amazon

AWS propose aux entreprises une gamme de services à la demande, incluant le stockage, les bases de données et l’intelligence artificielle. Elle détient presque un tiers du marché mondial, devançant ses concurrents américains, Microsoft Azure et Google Cloud, qui se partagent le reste du secteur.

Lire en complément: Une panne mondiale touche le cloud d’Amazon (AWS) : Internet et des dizaines de services bloqués

Dépendance envers quelques fournisseurs

Cet incident « met en lumière les défis associés à la dépendance » envers des fournisseurs de services étrangers tels qu’Amazon, Microsoft et Alphabet (Google), qui détiennent une part significative du marché mondial, indique Junade Ali, expert en cybersécurité à l’IET (Institution of Engineering and Technology) au Royaume-Uni. Cela soulève des questions cruciales sur la stratégie des entreprises « d’externaliser tout ou partie de leur infrastructure essentielle à un petit groupe de fournisseurs tiers afin de réaliser des économies sur l’hébergement », remarque l’analyste financier britannique Michael Hewson.

« Cette dépendance excessive à l’égard d’un seul fournisseur menace désormais plus que la simple disponibilité des services : elle met en péril la réputation de la marque et la confiance des clients », a déclaré Gadjo Sevilla, analyste chez Emarketer, soulignant la nécessité pour les clients d’AWS d’envisager des solutions de redondance, engendrant des coûts additionnels tant financiers qu’énergétiques.

Origines de l’incident

D’après une évaluation préliminaire publiée sur son site de maintenance, AWS a signalé que l’incident avait été causé, pour des raisons encore à établir, par un problème lié au DNS, le système de noms de domaine facilitant la direction des requêtes informatiques. Cette complication a eu des répercussions sur l’accès à la base de données DynamoDB, largement utilisée par de nombreuses applications en ligne.

Bien que l’incident ait été résolu rapidement en deux heures, il a occasionné des défaillances en série des serveurs EC2, élément fondamental des services d’AWS fournissant puissance de calcul et mémoire nécessaire aux entreprises.

Par la suite, par effet domino, « le système de vérification des répartiteurs de charge réseau a également été affecté », ce qui signifie que la tour de contrôle a également subi les conséquences de la défaillance initiale.

Pour prévenir qu’une panne n’impacte l’ensemble du réseau, AWS a cependant segmenté le monde en une quarantaine de régions, chacune abritant trois infrastructures distinctes et isolées, capables de compenser une défaillance. Toutefois, l’incident de lundi a mis en évidence que certaines requêtes essentielles continuent d’être traitées par les centres de données de la région US-East-1, le plus ancien (2006) et principal d’AWS, situé dans le nord de la Virginie.

En juillet 2024, un autre incident informatique, causé par une mise à jour du logiciel de CrowdStrike sur Windows, a paralysé des aéroports, des hôpitaux et de nombreuses autres organisations, provoquant un chaos à l’échelle mondiale. Selon Microsoft, environ 8,5 millions d’appareils ont été touchés par cette défaillance, laissant les utilisateurs face à des « écrans bleus de la mort » qui rendaient toute tentative de redémarrage impossible.