Řízení spolehlivosti stránek Wikimedie

Skupina:	Technology
Členové týmu:	In teams: Collaboration Services Lukasz Sobanski; Daniel Zahn, Jelto Wodstrcil, Arnold Okoth, Eoghan Gaffney Data Center Operations Willy Pao; Rob Halsell, Chris Johnson, Papaul Tshibamba, Jenn Hancock Data Persistence Kwaku Addo Ofori; Manuel Arostegui, Jaime Crespo, Stevie Beth Mhaol, Matthew Vernon, Amir Sarabadani, Eric Evans Infrastructure Foundations Joanna Boruń; John Bond, Riccardo Coccioli, Chris Danis, Cathal Mooney, Moritz Mühlenhoff, Arzhel Younsi, Jesse Hathaway, Simon Lyngshede Observability Leo Mata; Filippo Giunchedi, Keith Herron, Cole White, Andrea Denisse Gómez-Martínez Service Operations Alexandros Kosiaris; Giuseppe Lavagetto, Reuven Lazarus, Effie Mouzeli, Janis Meybohm, Clément Goubert, Kavitha Appakayala Traffic Kwaku Addo Ofori; Brandon Black, Brett Cornwall, Valentin Gutierrez, Sukhbir Singh, Fabrizio Furnari
Vedení:	Mark Bergsma

This page is a translated version of the page Wikimedia Site Reliability Engineering and the translation is 100% complete.

Tým Site Reliability Engineering, nebo zkráceně SRE, je tým zodpovědný za vývoj a údržbu produkční infrastruktury Wikimedia. Dříve známé jako Technical Operations, mají na starosti zajištění toho, aby všechny weby a služby Wikimedia používané veřejností (včetně MediaWiki a všech souvisejících služeb) fungovaly spolehlivě, bezpečně a s vysokým výkonem.

Informujte nás o mimořádných událostech pomocí Klaxonu.

#wikimedia-sre ^{připojit se}

Další dokumentaci týkající se naší infrastruktury a práce týmu lze nalézt na Wikitech.

Struktura týmu

Collaboration Services

We are responsible for building and maintaining the infrastructure aspects of the source code management, CI and CD, task and ticket management systems as well as hosting non-MediaWiki websites and other collaboration services.

Provoz datového centra

Provozní tým datových center je zodpovědný za všechna nasazení a logistiku datových center Wikimedie a také za udržování naší přítomnosti v lokalitách po celém světě. Provádějí práci na místě a udržují celý 5letý životní cyklus (specifikace, nákup, fyzická instalace, rozbití/oprava a vyřazení z provozu) pro veškerý hardware.

#wikimedia-dcops ^{připojit se}

Základy infrastruktury

Tým se zaměřuje na budování a údržbu naší základní platformy („metal cloud“), která tvoří základy, na nichž staví téměř vše ostatní v naší infrastruktuře. Kromě našich nasazení v holém kovu mezi jejich odpovědnosti patří (ale nejsou omezeny na) systémy pro správu konfigurace, automatizaci infrastruktury, nástroje pro orchestraci, zabezpečení infrastruktury a síťové operace.

#wikimedia-sre-foundations ^{připojit se}

Observability

Tým Observability, nebo zkráceně „o11y“, pracuje napříč SRE a technologiemi, aby týmům poskytoval diagnostické nástroje, platformy a přehled o tom, jak systémy a služby fungují. Využívá technologie jako Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager a další.

#wikimedia-observability ^{připojit se}

Traffic

Tým Traffic je zodpovědný za kritickou první vrstvu infrastruktury s vysokým provozem, která nyní pokrývá velkou část zeměkoule, včetně našich vrstev pro ukončení a ukládání do mezipaměti TLS (ATS, Varnish), vyvažování zátěže, DNS a naší vlastní sítě.

#wikimedia-traffic ^{připojit se}

Data Persistence

Tým Data Persistence se zaměřuje na systémy trvalého ukládání a získávání dat Wikimedia, včetně (No)SQL databází, (distribuovaných) úložišť objektů, ukládání souborů a zálohovacích systémů.

#wikimedia-data-persistence ^{připojit se}

Service Operations

Tým Service Operations se stará o veřejné a "uživatelsky viditelné" služby v úzké spolupráci s technologickými i produktovými týmy. To zahrnuje naši platformu MediaWiki, infrastrukturu služeb SOA založenou na Kubernetes a také komunitní a vývojářské služby jako Gitlab, Gerrit, Phabricator a VRTS.

#wikimedia-serviceops ^{připojit se}

Kontaktování týmu

Pokud se potřebujete spojit s týmem, podrobné pokyny jsou zde na stránce wikitech:SRE Team requests.