9
1 мес. назад
Технический лидер SRE
Ищем Lead SRE для управления надежностью сервисов и оптимизации их производительности. Важны навыки в SRE-практиках, опыт работы с Kubernetes и Linux, а также умение проводить code review и менторить команды.
lead
Опубликовано
29 ноября 2025
Вакансии в Telegram-канале
Свежие вакансии
Каждый день
описание
Навыки: SQL. Квалификация: Lead. Специализации: Разработчик приложений.
**Чем предстоит заниматься:**
- управление надежностью сервисов: проектирование, внедрение и поддержка SLO/SLI, error budget, координация процесса соблюдения SLO, управление использованием Error Budget;
- мониторинг и алертинг: разработка метрик, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг);
- capacity planning: прогнозирование нагрузки и планирование ресурсов; - performance optimization: выявление и устранение bottleneck, оптимизация производительности;
- incident & problem management: участие в устранении инцидентов (роль Incident Commander), расследование причин (RCA); ревью postmortems, разработка и внедрение corrective actions, при необходимости
- заведение проблем и контроль их решения;
- повышение отказоустойчивости: улучшение observability (логи, трейсы, метрики: обогащение, добавление, ревизия...);
- ревью DRP, участие в качестве координатора в DRT, поддержание DRP в актуальном состоянии; автоматизация: устранение рутины
- IaC (Terraform/Ansible) и Python/Go/Bash;
- менторство и обучение: проведение внутренних воркшопов для команд разработки по темам надёжности, observability, помощь в развитии навыков SRE у других инженеров, code review внутри команды;
- активное участие в разработке модели здоровья продукта и quality gates.
**Что мы ждем от кандидата:**
- экспертиза и практический опыт в SRE-практиках: глубокое понимание SLO/SLI, error budget, toil reduction, automation first... умение применять это практически для обеспечения надежности сервисов;
- умение проводить code review для оценки готовности к выходу в production новых функций и сервисов с точки зрения надёжности, наблюдаемости и эффективности, понимание, как изменения в коде влияют на смежные системы и общую стабильность платформы;
- практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production;
- эксперт в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть); глубокие знания и понимание того, как работают сети на уровнях L2-L7;
- опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем.
Дополнительно:
- системное мышление и умение анализировать сложные failure-сценарии, выявлять корневые причины, находить способы их устранения;
- опыт написания и ревью технической документации (runbooks, postmortems...);
- опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev).
Похожие вакансии
6 вакансии
Старший системный администратор
Присоединяйтесь к DASM Group в роли старшего системного администратора! Вы будете отвечать за администрирование серверов, поддержку ИТ…
senior
Алматы
Системный администратор
Ищем опытного DevOps специалиста с высшим техническим образованием и минимум 5-летним стажем. Вы будете заниматься администрированием серверов, н…
senior
Астана
Ведущий инженер в команду инфраструктуры
СберЗдоровье ищет ведущего инженера для работы в команде инфраструктуры. Вам предстоит автоматизировать процессы, администриро…
lead
удалённо
Системный администратор / Инженер инфраструктуры
Ищем системного администратора с опытом от 2-3 лет для работы с IT-инфраструктурой. Обязанности включают администрирование …
middle
Алматы