AWS-Störung beendet: Weltweite Dienste wieder online

Nach einer Störung in Amazons Cloud sind zahlreiche Dienste weltweit ausgefallen. AWS meldet: Die Systeme sind wieder online und Analysen zur Ursache laufen.

Was passierte?

Eine breit angelegte Störung bei Amazon Web Services (AWS) hat zeitweise Apps, Websites und Unternehmensanwendungen ausgebremst. Nutzerinnen und Nutzer meldeten Probleme beim Login, verzögerte Transaktionen und komplett ausgefallene Funktionen. Nachdem AWS Gegenmaßnahmen eingeleitet hatte, normalisierten sich die Dienste schrittweise; vereinzelt sind Nachwirkungen möglich, etwa langsamere Antwortzeiten, während Warteschlangen abgearbeitet werden.

Ursachen und Schwachstellen

AWS-Ausfälle entstehen typischerweise durch Netzwerkfehler, fehlerhafte Konfigurationen, Überlast in Steuerdiensten oder Störungen in Rechenzentrums-Teilsystemen. Besonders kritisch ist die Abhängigkeit von us-east-1, einer Kernregion, an die viele Steuer- und Identitätsfunktionen gekoppelt sind. Fällt eine solche Drehscheibe aus, verstärkt der hohe Grad an Dienstverflechtung die globale Kettenreaktion: Authentifizierung scheitert, Datenbanken drosseln, Serverless-Workloads skalieren nicht, selbst wenn einzelne Workloads in anderen Regionen laufen.

Wer war von den Ausfällen der Amazon Web Services betroffen?

Die Störung traf ein breites Spektrum: E‑Commerce, Streaming, Collaboration-Tools, Zahlungsabwickler, Logistik sowie vernetzte Geräte. Viele Unternehmen betreiben Kernprozesse in der AWS-Cloud oder nutzen über Drittanbieter auf AWS aufbauende Dienste. Dadurch addieren sich direkte und indirekte Effekte, etwa wenn Identitätsdienste (SSO) oder Content-Auslieferung gestört sind.

Wiederherstellung und Lehren

Die Wiederherstellung erfolgt in mehreren Phasen. Dazu gehören die Stabilisierung der Kontroll-Ebene, eine Lastumlagerung, der Kapazitätsausbau und das Abarbeiten von Backlogs. AWS rät in der Regel zu Multi-AZ-Deployments, asynchronen Mustern und Circuit Breakern. Für geschäftskritische Systeme gilt: Resilienz stärken durch Multi-Region mit automatischem Failover, entkoppelten Queues, Caching und Graceful Degradation. Unternehmen sollten zudem Runbooks und Chaos-Tests etablieren, um Failover-Pfade unter Realbedingungen zu prüfen.

Einordnung

Die Störung unterstreicht die Systemrelevanz großer Cloud-Anbieter und die Konzentrationsrisiken in digitalen Lieferketten. Regulatorische Initiativen wie DORA und NIS2 fordern erhöhte Resilienz und Ausfallsicherheit — technisch wie organisatorisch. Für Anwender bleibt entscheidend, Abhängigkeiten transparent zu machen, Notfallprozesse zu üben und Architekturen so zu gestalten, dass einzelne Ausfälle nicht zum Flaschenhals für ganze Geschäftsprozesse werden.

Quellen: Amazon Web Services: Summary of AWS Service Event in US-EAST-1; Reuters: Amazon's AWS resolves outage after impacting services; The Verge: AWS outage knocks sites and apps offline; Cloudflare: Cloud concentration risk and resilience

About Author

GR+J

Was kommt heraus, wenn eine KI und echte Menschen zusammenarbeiten? Das zeigen die von uns mit dieser Nutzerkennung veröffentlichten Artikel, die durchweg manuell geprüft und überarbeitet werden.

See author's posts