Wikimedia Site Reliability Engineering

Gruppe:	Technology
Team-Mitglieder:	In teams: Collaboration Services Lukasz Sobanski; Daniel Zahn, Jelto Wodstrcil, Arnold Okoth, Eoghan Gaffney Data Center Operations Willy Pao; Rob Halsell, Chris Johnson, Papaul Tshibamba, Jenn Hancock Data Persistence Kwaku Addo Ofori; Manuel Arostegui, Jaime Crespo, Matthew Vernon, Amir Sarabadani, Eric Evans Infrastructure Foundations Joanna Boruń; John Bond, Riccardo Coccioli, Chris Danis, Cathal Mooney, Moritz Mühlenhoff, Arzhel Younsi, Jesse Hathaway, Simon Lyngshede Observability Leo Mata; Filippo Giunchedi, Keith Herron, Cole White, Andrea Denisse Gómez-Martínez, Tiziano Fogli Service Operations Alexandros Kosiaris; Giuseppe Lavagetto, Reuven Lazarus, Effie Mouzeli, Janis Meybohm, Clément Goubert, Kavitha Appakayala Traffic Kwaku Addo Ofori; Brandon Black, Brett Cornwall, Valentin Gutierrez, Sukhbir Singh, Fabrizio Furnari
Aufgabenliste:	#sre
Management:	Mark Bergsma

This page is a translated version of the page Wikimedia Site Reliability Engineering and the translation is 100% complete.

Das Team Site Reliability Engineering oder kurz SRE ist das Team, das für die Entwicklung und Wartung der Produktionsinfrastruktur von Wikimedia verantwortlich ist. Es war zuvor als Technical Operations bekannt und ist dafür verantwortlich sicherzustellen, dass alle Wikimedia-Seiten und -Dienste, die von der Öffentlichkeit genutzt werden (einschließlich MediaWiki und allen zugehörigen Diensten), verlässlich, sicher und mit hoher Leistung laufen.

Benachrichtige uns in Notfällen über Klaxon.

#wikimedia-sre ^connect

Zusätzliche Dokumentation zu unserer Infrastruktur und der Arbeit des Teams finden sich auf Wikitech.

Die Struktur des Teams

Collaboration Services

We are responsible for building and maintaining the infrastructure aspects of the source code management, CI and CD, task and ticket management systems as well as hosting non-MediaWiki websites and other collaboration services.

Rechenzentrumsbetrieb

Das Team Data Center Operations ist verantwortlich für die Bereitstellung und Logistik der Wikimedia-Datenzentren und die Aufrechterhaltung unserer Präsenz an Standorten auf der ganzen Welt. Es führt On-Site-Arbeiten aus und verwaltet den fünfjährigen Lebenszyklus (Spezifikationen, Kauf, physische Installation, Defekt/Reparatur und Außerbetriebnahme) für die gesamte Hardware.

#wikimedia-dcops ^connect

Infrastruktur-Grundlagen

Das Team fokussiert sich auf den Aufbau und die Wartung unserer Basis-Plattforn (“metal cloud”), die die Grundlage bildet, auf der nahezu alles in unserer Infrastruktur aufbaut. Zusätzlich zur Bereitstellung der Basis-Plattform gehören zu seiner Verantwortung (unter anderem) Konfigurationsmanagementsysteme, Infrastrukturautomatisierung, Orchestrierungswerkzeuge, Infrastruktursicherheit und Netzwerkbetrieb.

#wikimedia-sre-foundations ^connect

Beobachtbarkeit

Das Team Observability oder kurz "o11y" arbeitet über SRE und Technologie hinweg, um Teams Diagnosewerkzeuge, Plattformen und Einblicke in die Performance von Systemen und Diensten anzubieten. Es nutzt Technologien wie Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager und weitere.

#wikimedia-observability ^connect

Traffic

Das Team Traffic ist verantwortlich für die kritische erste Ebene der Infrastruktur mit hohem Datenverkehr, die sich nun über einen Großteil der Welt erstreckt. Dazu zählen TLS-Terminierung, Caching-Layers (ATS, Varnish), Lastausgleich, DNS und unser eigenes Netzwerk.

#wikimedia-traffic ^connect

Datenpersistenz

Das Team Data Persistence fokussiert sich auf die Systeme zur Speicherung und zum Abruf der persistenten Daten von Wikimedia, darunter (No)SQL-Datenbanken, (verteilte) Objektspeicher, Dateispeicher und Backup-Systeme.

#wikimedia-data-persistence ^connect

Dienstbetrieb

Das Team Service Operations kümmert sich um öffentliche und “für Benutzer sichtbare” Dienste in enger Zusammenarbeit mit dem Technologie-Team und dem Produkt-Team. Dazu zählen unsere MediaWiki-Plattform, die auf Kubernetes basierende SOA-Service-Infrastruktur, sowie Dienste für die Gemeinschaft und Entwickler wie Gitlab, Gerrit, Phabricator und VRTS.

#wikimedia-serviceops ^connect

Das Team kontaktieren

Wenn du das Team kontaktieren musst, findest du detaillierte Anweisungen dazu auf wikitech:SRE Team requests.