2 Min. Lesezeit
Wie stellt Atlassian das Backup und Recovery Management sicher?
Tina Angok : May 30, 2022 9:29:00 AM
Atlassians Produkte laufen in einer Platform-as-a-Service (PaaS) Umgebung. Daher verwendet Atlassian viel Zeit darauf, die Auswirkungen etwaiger Störungen auf Kunden gering zu halten. Atlassians Maßnahmen lassen sich in drei Hauptkategorien unterteilen:
- Infrastruktur und Datenbanken
- Backups und Recovery Objectives
- Disaster Recovery Pläne
Infrastruktur und Datenbanken
Jira und Confluence Cloud werden im Rahmen des AWS Infrastructure-as-a-Service (IaaS)-Angebots in mehreren AWS-Regionen gehostet. Jira und Confluence Cloud verwenden logisch getrennte relationale Datenbanken für jede Produktinstanz.
Durch mehrere Rechenzentren und Availability Zones wird eine hohe Verfügbarkeit der Atlassian Produkte gewährleistet. Die Backups werden geografisch verteilt an verschiedenen Orten gespeichert. Bei Bedarf kann Atlassian Daten zwischen AWS-Regionen bewegen, sofern Datenresidenz möglich ist. Atlassian nutzt dafür die hochverfügbaren AWS-Rechenzentren, die in verschiedenen Weltregionen angesiedelt sind. Jira und Confluence nutzen den Multi-Availability-Zones-Deployment-Modus für Amazon Relational Database Service (RDS). In einem Multi-AZ-Deployment stellt Amazon RDS eine synchrone Standby-Replikat in einer anderen Availability Zone der gleichen Region bereit, um Redundanz und Failover-Funktionalität zu gewährleisten.
Backups und Recovery Objectives
Daten sind essenziell für das Überleben eines Unternehmens, Atlassian weiß das und hat daher ein umfangreiches Backupprogramm implementiert.
Für Jira und Confluence Cloud nutzt Atlassian die Snapshot-Funktion von Amazon RDS, um automatische tägliche Backups jeder RDS-Instanz anzulegen. Amazon RDS-Snapshots werden 30 Tage lang aufbewahrt. Sie unterstützen die zeitpunktspezifische Wiederherstellung (Point-in-Time Recovery) und sind AES-256-verschlüsselt.
In der Praxis ist ein System ohne Datenverlustrisiko allerdings entweder unerreichbar oder unerschwinglich, somit müssen gewisse Recovery Objectives festgelegt werden.
Das Recovery-Time-Objective (RTO) gibt an, wie schnell nach einem Vorfall ein Geschäftsprozess (oder System) wiederhergestellt und wieder in Betrieb sein soll. Das Recovery-Point-Objective (RPO) steht für die Datenmenge, deren Verlust für das Unternehmen nach erfolgter Wiederherstellung akzeptabel ist.
Jira und Confluence Cloud gehören zum Segment der Stufe 1, hierbei beträgt das RTO nur sechs Stunden und das RPO lediglich eine Stunde. Das bedeutet, der Datenverlust bei Ausfall umfasst nur die Daten der letzten Stunde.
Disaster Recovery Pläne
Atlassian führt regelmäßig Disaster-Recovery-Tests durch und hat sich in seinem Disaster-Recovery (DR)-Programm zu kontinuierlicher Verbesserung verpflichtet. So soll sichergestellt werden, dass die Daten und Services der Kunden jederzeit verfügbar und ausfallsicher sind.
Zu diesen Tests gehören unter anderem:
- die Dokumentation: Für kritische Kundenservices wird die Backupdokumentation vierteljährlich auf Genauigkeit, Vollständigkeit und Aktualität überprüft. Probleme werden intern verfolgt bis sie behoben sind
- die Prozesse: Die technische Grundlage der Backup- und Wiederherstellungsprozesse für kritische/kundenorientierte Services wird vierteljährlich geprüft.
- Ausfallsicherheit: Die Ausfallsicherheit der Availability Zones (AZ) wird regelmäßig getestet, um sicherzugehen, dass Atlassian einen AZ-Ausfall mit minimaler Unterbrechung überstehen kann.
- Systeme: Die Site-Reliability-Engineering (SRE)-Teams und Product-Engineering-Teams überwachen laufend eine Vielzahl von Kennzahlen, um sicherzustellen, dass alle unsere Services wie gewünscht funktionieren.
Atlassian sorgt für die Hochverfügbarkeit, den Schutz und die Ausfallsicherheit von Kundendaten. Dies wird erreicht durch erstklassige Technologien, kontinuierliche Tests und Validierungen. Mithilfe mehrerer geografisch verteilten Rechenzentren, verfügt Atlassian über ein umfangreiches Backupprogramm und testet Disaster-Recovery-Pläne regelmäßig auf Eignung und Wirksamkeit.