Ingénierie de la fiabilité du site Wikimedia

Groupe :	Technology
Membres de l'équipe :	In teams: Collaboration Services Lukasz Sobanski; Daniel Zahn, Jelto Wodstrcil, Arnold Okoth, Eoghan Gaffney Data Center Operations Willy Pao; Rob Halsell, Chris Johnson, Papaul Tshibamba, Jenn Hancock Data Persistence Kwaku Addo Ofori; Manuel Arostegui, Jaime Crespo, Matthew Vernon, Amir Sarabadani, Eric Evans Infrastructure Foundations Joanna Boruń; John Bond, Riccardo Coccioli, Chris Danis, Cathal Mooney, Moritz Mühlenhoff, Arzhel Younsi, Jesse Hathaway, Simon Lyngshede Observability Leo Mata; Filippo Giunchedi, Keith Herron, Cole White, Andrea Denisse Gómez-Martínez, Tiziano Fogli Service Operations Alexandros Kosiaris; Giuseppe Lavagetto, Reuven Lazarus, Effie Mouzeli, Janis Meybohm, Clément Goubert, Kavitha Appakayala Traffic Kwaku Addo Ofori; Brandon Black, Brett Cornwall, Valentin Gutierrez, Sukhbir Singh, Fabrizio Furnari
Arriéré des tâches :	#sre
Gestion :	Mark Bergsma

This page is a translated version of the page Wikimedia Site Reliability Engineering and the translation is 100% complete.

L'équipe Ingénierie de la fiabilité du site, ou Site Reliability Engineering (SRE) en anglais, est l'équipe responsable de développer et maintenir l'infrastructure de production de Wikimedia. Anciennment connus comme Opérations Techniques, ils s'assurent que tous les sites et services Wikimedia utilisés par le public (en comptant MediaWiki et ses services associés) fonctionne de mainère fiable, sécurisée, et avec une haute performance.

Signalez-nous les urgences avec Klaxon.

#wikimedia-sre ^connecter

De la documentation supplémentaire à propos de notre infrastructure et du travail de l'équipe est disponible sur Wikitech.

Structure de l'équipe

Collaboration Services

We are responsible for building and maintaining the infrastructure aspects of the source code management, CI and CD, task and ticket management systems as well as hosting non-MediaWiki websites and other collaboration services.

Opérations du centre de données

L'équipe Opérations de centre de données est responsable de tous les déploiements et toute la logistique des centres de données de Wikimedia, ainsi que de maintenir notre présence tout autour du monde. Elle effectue du travail sur place et maintient le cycle de vie complet de 5 ans (spécificités, achat, installation physique, problème/réparation et démantèlement) pour tout le matériel.

#wikimedia-dcops ^connecter

Fondations d'infrastructure

L'équipe se concentre sur la construction et la maintenance de notre plateforme de base ("metal cloud") qui forme les fondations sur lequel plus ou moins tout le reste de notre infrastructure s'appuie. En plus de nos déploiements de métal, leurs responsabilités comprennent (mais ne sont pas que) les systèmes de gestion de configuration, l'automatisation de l'infrastructure, les outils d'orchestration, la sécurité de l'infrastructure et les opérations réseau.

#wikimedia-sre-foundations ^connecter

Observabilité

L'équipe Observabilité, raccourci en "o11y", travaille avec SRE et Technologie pour fournir aux équipes des outils et plateformes de diagnostic et des informations sur les performances des systèmes ou services. Elle optimise des technologies comme Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager, et plus.

#wikimedia-observability ^connecter

Trafic

L'équipe Trafic est responsable de la première couche critique d'infrastructure à haut trafic qui à présent couvre la majorité de la planète, comprenant notre terminaison TLS et nos couches de cache (ATS, Varnish), la répartition de la charge, DNS et notre propre réseau.

#wikimedia-traffic ^connecter

Persistance des données

L'équipe persistance des données se concentre sur les systèmes de stockage persistant et de récupération des données, incluant les base de données (No)SQL, le stockage (distribué) des objets, le stockage des fichiers ainsi que les systèmes de sauvegarde.

#wikimedia-data-persistence ^connecter

Opérations de service

L'équipe Opérations de service gère les services publics ou "visibles par les utilisateurs" en collaboration étroite avec les équipes Technologie et Produit. Ceci comprend notre plateforme MediaWiki, l'infrastructure de sevrices SOA basée sur Kubernetes, ainsi que des services servant aux développeurs et à la communauté comme Gitlab, Gerrit, Phabricator et VRTS.

#wikimedia-serviceops ^connecter

Contacter l'équipe

Pour communiquer avec l'équipe, les instructions détaillées sont sur wikitech:SRE Team requests.