Wikimedia Site Reliability Engineering

This page is a translated version of the page Wikimedia Site Reliability Engineering and the translation is 100% complete.

Das Team Site Reliability Engineering oder kurz SRE ist das Team, das für die Entwicklung und Wartung der Produktionsinfrastruktur von Wikimedia verantwortlich ist. Es war zuvor als Technical Operations bekannt und ist dafür verantwortlich sicherzustellen, dass alle Wikimedia-Seiten und -Dienste, die von der Öffentlichkeit genutzt werden (einschließlich MediaWiki und allen zugehörigen Diensten), verlässlich, sicher und mit hoher Leistung laufen.

Benachrichtige uns in Notfällen über Klaxon.

#wikimedia-sre connect

Zusätzliche Dokumentation zu unserer Infrastruktur und der Arbeit des Teams finden sich auf Wikitech.

Die Struktur des Teams

Collaboration Services

We are responsible for building and maintaining the infrastructure aspects of the source code management, CI and CD, task and ticket management systems as well as hosting non-MediaWiki websites and other collaboration services.

Rechenzentrumsbetrieb

Das Team Data Center Operations ist verantwortlich für die Bereitstellung und Logistik der Wikimedia-Datenzentren und die Aufrechterhaltung unserer Präsenz an Standorten auf der ganzen Welt. Es führt On-Site-Arbeiten aus und verwaltet den fünfjährigen Lebenszyklus (Spezifikationen, Kauf, physische Installation, Defekt/Reparatur und Außerbetriebnahme) für die gesamte Hardware.

#wikimedia-dcops connect

Infrastruktur-Grundlagen

Das Team fokussiert sich auf den Aufbau und die Wartung unserer Basis-Plattforn (“metal cloud”), die die Grundlage bildet, auf der nahezu alles in unserer Infrastruktur aufbaut. Zusätzlich zur Bereitstellung der Basis-Plattform gehören zu seiner Verantwortung (unter anderem) Konfigurationsmanagementsysteme, Infrastrukturautomatisierung, Orchestrierungswerkzeuge, Infrastruktursicherheit und Netzwerkbetrieb.

#wikimedia-sre-foundations connect

Beobachtbarkeit

Das Team Observability oder kurz "o11y" arbeitet über SRE und Technologie hinweg, um Teams Diagnosewerkzeuge, Plattformen und Einblicke in die Performance von Systemen und Diensten anzubieten. Es nutzt Technologien wie Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager und weitere.

#wikimedia-observability connect

Traffic

Das Team Traffic ist verantwortlich für die kritische erste Ebene der Infrastruktur mit hohem Datenverkehr, die sich nun über einen Großteil der Welt erstreckt. Dazu zählen TLS-Terminierung, Caching-Layers (ATS, Varnish), Lastausgleich, DNS und unser eigenes Netzwerk.

#wikimedia-traffic connect

Datenpersistenz

Das Team Data Persistence fokussiert sich auf die Systeme zur Speicherung und zum Abruf der persistenten Daten von Wikimedia, darunter (No)SQL-Datenbanken, (verteilte) Objektspeicher, Dateispeicher und Backup-Systeme.

#wikimedia-data-persistence connect

Dienstbetrieb

Das Team Service Operations kümmert sich um öffentliche und “für Benutzer sichtbare” Dienste in enger Zusammenarbeit mit dem Technologie-Team und dem Produkt-Team. Dazu zählen unsere MediaWiki-Plattform, die auf Kubernetes basierende SOA-Service-Infrastruktur, sowie Dienste für die Gemeinschaft und Entwickler wie Gitlab, Gerrit, Phabricator und VRTS.

#wikimedia-serviceops connect

Das Team kontaktieren

Wenn du das Team kontaktieren musst, findest du detaillierte Anweisungen dazu auf wikitech:SRE Team requests.