Ingénierie de la fiabilité du site Wikimedia

This page is a translated version of the page Wikimedia Site Reliability Engineering and the translation is 100% complete.

L'équipe Ingénierie de la fiabilité du site, ou Site Reliability Engineering (SRE) en anglais, est l'équipe responsable de développer et maintenir l'infrastructure de production de Wikimedia. Anciennment connus comme Opérations Techniques, ils s'assurent que tous les sites et services Wikimedia utilisés par le public (en comptant MediaWiki et ses services associés) fonctionne de mainère fiable, sécurisée, et avec une haute performance.

Signalez-nous les urgences avec Klaxon.

#wikimedia-sre connecter

De la documentation supplémentaire à propos de notre infrastructure et du travail de l'équipe est disponible sur Wikitech.

Structure de l'équipe

Collaboration Services

We are responsible for building and maintaining the infrastructure aspects of the source code management, CI and CD, task and ticket management systems as well as hosting non-Mediawiki websites and other collaboration services.

Opérations du centre de données

L'équipe Opérations de centre de données est responsable de tous les déploiements et toute la logistique des centres de données de Wikimedia, ainsi que de maintenir notre présence tout autour du monde. Elle effectue du travail sur place et maintient le cycle de vie complet de 5 ans (spécificités, achat, installation physique, problème/réparation et démantèlement) pour tout le matériel.

#wikimedia-dcops connecter

Fondations d'infrastructure

L'équipe se concentre sur la construction et la maintenance de notre plateforme de base ("metal cloud") qui forme les fondations sur lequel plus ou moins tout le reste de notre infrastructure s'appuie. En plus de nos déploiements de métal, leurs responsabilités comprennent (mais ne sont pas que) les systèmes de gestion de configuration, l'automatisation de l'infrastructure, les outils d'orchestration, la sécurité de l'infrastructure et les opérations réseau.

#wikimedia-sre-foundations connecter

Observabilité

L'équipe Observabilité, raccourci en "o11y", travaille avec SRE et Technologie pour fournir aux équipes des outils et plateformes de diagnostic et des informations sur les performances des systèmes ou services. Elle optimise des technologies comme Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager, et plus.

#wikimedia-observability connecter

Trafic

L'équipe Trafic est responsable de la première couche critique d'infrastructure à haut trafic qui à présent couvre la majorité de la planète, comprenant notre terminaison TLS et nos couches de cache (ATS, Varnish), la répartition de la charge, DNS et notre propre réseau.

#wikimedia-traffic connecter

Persistance des données

L'équipe persistance des données se concentre sur les systèmes de stockage persistant et de récupération des données, incluant les base de données (No)SQL, le stockage (distribué) des objets, le stockage des fichiers ainsi que les systèmes de sauvegarde.

#wikimedia-data-persistence connecter

Opérations de service

L'équipe Opérations de service gère les services publics ou "visibles par les utilisateurs" en collaboration étroite avec les équipes Technologie et Produit. Ceci comprend notre plateforme MediaWiki, l'infrastructure de sevrices SOA basée sur Kubernetes, ainsi que des services servant aux développeurs et à la communauté comme Gitlab, Gerrit, Phabricator et VRTS.

#wikimedia-serviceops connecter

Contacter l'équipe

Pour communiquer avec l'équipe, les instructions détaillées sont sur wikitech:SRE Team requests.