Техническое обеспечение надёжности сайтов Викимедиа
Команда технического обеспечения надёжности сайтов (Site Reliability Engineering, сокр. SRE) отвечает за разработку и поддержание продуктивной инфраструктуры Викимедиа. Ранее известные под названием «Technical Operations», они отвечают за обеспечение надёжной, защищенной и высокопроизводительной работы всех сайтов и сервисов Викимедиа в публичном доступе (включая ПО MediaWiki и все связанные с ним сервисы).
Site Reliability Engineering
|
Уведомляйте нас о чрезвычайных ситуациях через Klaxon.
Дополнительную документацию, касающуюся нашей инфраструктуры и работы команды, можно найти на сайте Wikitech.
Структура команды
Collaboration Services
We are responsible for building and maintaining the infrastructure aspects of the source code management, CI and CD, task and ticket management systems as well as hosting non-MediaWiki websites and other collaboration services.
Data Center Operations
The Data Center Operations team is responsible for all of Wikimedia’s data center deployments and logistics as well as maintaining our presence in locations across the world. They perform on-site work and maintain the full 5-year life cycle (specs, purchasing, physical install, break/fix and decommissioning) for all hardware.
Infrastructure Foundations
The team focuses on building and maintaining our base platform (“metal cloud”) that forms the foundations upon which nearly everything else in our infrastructure builds upon. On top of our bare metal deployments, their responsibilities include (but are not limited to) configuration management systems, infrastructure automation, orchestration tooling, infrastructure security and network operations.
#wikimedia-sre-foundations подключиться
Наблюдаемость
The Observability team, or "o11y" for short, works across SRE and Technology to provide teams with diagnostic tools, platforms, and insights into how systems and services perform. It leverages technologies such as Grafana, Kibana/Logstash, OpenSearch, Prometheus, AlertManager and more.
#wikimedia-observability подключиться
Трафик
The Traffic team is responsible for the critical first layer of high-traffic infrastructure which now spans much of the globe, including our TLS termination and caching layers (ATS, Varnish), load balancing, DNS and our own network.
#wikimedia-traffic подключиться
Сохранение данных
Команда по сохранению данных специализируется на системах постоянного хранения и поиска данных Викимедиа, включая базы данных (No)SQL, (распределенные) хранилища объектов, файловые хранилища и системы резервного копирования.
#wikimedia-data-persistence подключиться
Сервисные операции
Команда сервисных операций заботится о общедоступных и «видимых пользователю» сервисах в тесном сотрудничестве как с технологическими, так и с продуктовыми командами. Это включает нашу платформу MediaWiki, инфраструктуру SOA-сервисов на базе Kubernetes, а также сервисы для сообщества и разработчиков, такие как Gitlab, Gerrit, Phabricator и VRTS.
#wikimedia-serviceops подключиться
Связь с командой
Если вам нужно связаться с командой, подробные инструкции есть по ссылке wikitech:SRE Team requests.