Řízení spolehlivosti stránek Wikimedie

This page is a translated version of the page Wikimedia Site Reliability Engineering and the translation is 100% complete.

Tým Site Reliability Engineering, nebo zkráceně SRE, je tým zodpovědný za vývoj a údržbu produkční infrastruktury Wikimedia. Dříve známé jako Technical Operations, mají na starosti zajištění toho, aby všechny weby a služby Wikimedia používané veřejností (včetně MediaWiki a všech souvisejících služeb) fungovaly spolehlivě, bezpečně a s vysokým výkonem.

Informujte nás o mimořádných událostech pomocí Klaxonu.

#wikimedia-sre připojit se

Další dokumentaci týkající se naší infrastruktury a práce týmu lze nalézt na Wikitech.

Struktura týmu

Collaboration Services

We are responsible for building and maintaining the infrastructure aspects of the source code management, CI and CD, task and ticket management systems as well as hosting non-MediaWiki websites and other collaboration services.

Provoz datového centra

Provozní tým datových center je zodpovědný za všechna nasazení a logistiku datových center Wikimedie a také za udržování naší přítomnosti v lokalitách po celém světě. Provádějí práci na místě a udržují celý 5letý životní cyklus (specifikace, nákup, fyzická instalace, rozbití/oprava a vyřazení z provozu) pro veškerý hardware.

#wikimedia-dcops připojit se

Základy infrastruktury

Tým se zaměřuje na budování a údržbu naší základní platformy („metal cloud“), která tvoří základy, na nichž staví téměř vše ostatní v naší infrastruktuře. Kromě našich nasazení v holém kovu mezi jejich odpovědnosti patří (ale nejsou omezeny na) systémy pro správu konfigurace, automatizaci infrastruktury, nástroje pro orchestraci, zabezpečení infrastruktury a síťové operace.

#wikimedia-sre-foundations připojit se

Observability

Tým Observability, nebo zkráceně „o11y“, pracuje napříč SRE a technologiemi, aby týmům poskytoval diagnostické nástroje, platformy a přehled o tom, jak systémy a služby fungují. Využívá technologie jako Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager a další.

#wikimedia-observability připojit se

Traffic

Tým Traffic je zodpovědný za kritickou první vrstvu infrastruktury s vysokým provozem, která nyní pokrývá velkou část zeměkoule, včetně našich vrstev pro ukončení a ukládání do mezipaměti TLS (ATS, Varnish), vyvažování zátěže, DNS a naší vlastní sítě.

#wikimedia-traffic připojit se

Data Persistence

Tým Data Persistence se zaměřuje na systémy trvalého ukládání a získávání dat Wikimedia, včetně (No)SQL databází, (distribuovaných) úložišť objektů, ukládání souborů a zálohovacích systémů.

#wikimedia-data-persistence připojit se

Service Operations

Tým Service Operations se stará o veřejné a "uživatelsky viditelné" služby v úzké spolupráci s technologickými i produktovými týmy. To zahrnuje naši platformu MediaWiki, infrastrukturu služeb SOA založenou na Kubernetes a také komunitní a vývojářské služby jako Gitlab, Gerrit, Phabricator a VRTS.

#wikimedia-serviceops připojit se

Kontaktování týmu

Pokud se potřebujete spojit s týmem, podrobné pokyny jsou zde na stránce wikitech:SRE Team requests.