9 1 мес. назад

SR-инженер уровня Senior/TechLead

Мы ищем опытного SR-инженера, который поможет сделать наши продукты надежными и предсказуемыми. Если вы разбираетесь в SRE-практиках и умеете управлять инцидентами, а также хотите делиться знаниями с командой, откликайтесь на вакансию!

senior
Опубликовано
29 ноября 2025
Вакансии в Telegram-канале
Свежие вакансии Каждый день
Подписаться

описание

Навыки: SQL. Квалификация: Senior. Специализации: Инженер по доступности сервисов. Мы привлекаем амбициозных профессионалов по всей России, чтобы вместе решать прорывные задачи и создавать инновации. Нас уже более 1700 человек Мы растем и нам нужен SR-инженер уровня Senior/TechLead, который поможет нам сделать наши продукты надежными; который понимает, что надежность - это не только uptime, но и предсказуемость, удовлетворенность наших пользователей, душевное спокойствие инженеров и постоянная работа над процессами. Если ты знаешь, как превратить SLO/SLI в работающую систему, а не просто красивые графики; умеешь предсказывать проблемы до того, как они станут инцидентами; уверен, что главное - довольные пользователи; можешь объяснить, почему error budget важнее \"фичи, которую надо запилить к утру\", понимаешь, что \"починить сейчас\" и \"сделать, чтобы больше не ломалось\" - это разные вещи; и для тебя incident/problem management — это процесс, а не героизм - то откликайся! **На этой позиции тебе предстоит:** - управление надежностью сервисов: проектирование, внедрение и поддержка SLO/SLI, error budget, координация процесса соблюдения SLO, управление использованием Error Budget; - мониторинг и алертинг: разработка метрик, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг); - capacity planning: прогнозирование нагрузки и планирование ресурсов; - performance optimization: выявление и устранение bottleneck, оптимизация производительности; - incident & problem management: участие в устранении инцидентов (роль Incident Commander), расследование причин (RCA); ревью postmortems, разработка и внедрение corrective actions, при необходимости - заведение проблем и контроль их решения; - повышение отказоустойчивости: улучшение observability (логи, трейсы, метрики: обогащение, добавление, ревизия...); - ревью DRP, участие в качестве координатора в DRT, поддержание DRP в актуальном состоянии; - автоматизация: устранение рутины - IaC (Terraform/Ansible) и Python/Go/Bash; - менторство и обучение: проведение внутренних воркшопов для команд разработки по темам надёжности, observability, помощь в развитии навыков SRE у других инженеров. **Что мы ждем от кандидата:** - экспертиза и практический опыт в SRE-практиках: глубокое понимание SLO/SLI, error budget, toil reduction, automation first... умение применять это практически для обеспечения надежности сервисов; - умение проводить code review для оценки готовности к выходу в production новых функций и сервисов с точки зрения надёжности, наблюдаемости и эффективности, понимание, как изменения в коде влияют на смежные системы и общую стабильность платформы; - практический опыт построения и внедрения quality gates в CI/CD процесс для управления рисками при развертывании: для предотвращения попадания нестабильных изменений в production; - эксперт в эксплуатации Linux, включая диагностику на уровне ядра (процессы, память, сеть); - глубокие знания и понимание того, как работают сети на уровнях L2-L7; - опыт работы с Kubernetes и понимание его internal'ов для диагностики сложных проблем. Было бы неплохо иметь: - системное мышление и умение анализировать сложные failure-сценарии, выявлять корневые причины, находить способы их устранения; - опыт написания и ревью технической документации (runbooks, postmortems...); - опыт коммуникации с разработчиками и бизнесом (объяснение trade-offs между reliability и feature dev).

Похожие вакансии

6 вакансии
DASM Group
DASM Group
5 д. назад

Старший системный администратор

Присоединяйтесь к DASM Group в роли старшего системного администратора! Вы будете отвечать за администрирование серверов, поддержку ИТ…

senior Алматы
WSE
WSE
5 д. назад

Системный администратор

Ищем опытного DevOps специалиста с высшим техническим образованием и минимум 5-летним стажем. Вы будете заниматься администрированием серверов, н…

senior Астана
Институт цифровой техники и технологий
Институт цифровой техники и технологий
12 ч. назад

Системный администратор / Инженер инфраструктуры

Ищем системного администратора с опытом от 2-3 лет для работы с IT-инфраструктурой. Обязанности включают администрирование …

middle Алматы
Халык-Life, АО
Халык-Life, АО
1 д. назад

Сетевой администратор

Ищем специалиста по администрированию сетей с опытом работы от 3 лет. Вы будете заниматься настройкой сетевого оборудов…

middle Алматы
Халык-Life, АО
Халык-Life, АО
1 д. назад

Администратор баз данных

Ищем специалиста с опытом работы в IT не менее 3 лет для администрирования серверов и баз данных.…

middle Алматы
Axenix
Axenix
6 д. назад

DevOps Engineer

Axenix ищет DevOps Engineer с опытом работы на уровне middle. Вы будете участвовать в интересных проектах, связанных с DevOps трансформацией…

middle