Старший инженер платформы и надежности сайтов (Platform & SRE)
Старший инженер платформы и надежности (SRE) для построения и поддержки общей облачной платформы для нескольких B2B SaaS-продуктов. Нужно проектировать CI/CD, observability, IaC (Terraform), event streaming и автоматизацию. Требуется 8+ лет опыта в DevOps/SRE, экспертиза AWS, GitHub Actions, Grafana. Работа полностью удаленная, с пересечением по времени с командой в США.
Зарплата не указана — оценили по рынку
На основе 149 похожих вакансий за 90 дней.
Что предстоит делать
Наш клиент — быстрорастущая enterprise-организация, занимающаяся разработкой ПО, которая приобретает и масштабирует B2B SaaS-продукты. Они создают общую облачную платформу, служащую инженерной основой для растущего портфеля корпоративных приложений. Эта платформа предоставляет стандартизированную инфраструктуру, возможности развертывания, наблюдаемости, автоматизации и отказоустойчивости для нескольких продуктов, одновременно обеспечивая будущий рост без пропорционального увеличения операционной сложности. Организация инвестирует в современные практики платформенной инженерии, облачные технологии, Infrastructure as Code, AI-assisted engineering и операционную автоматизацию для создания масштабируемой и высоконадежной инженерной экосистемы. Они ищут опытного Senior Platform & Site Reliability Engineer, который возьмет на себя ответственность за общую платформу, установит инженерные стандарты и спроектирует инфраструктуру, поддерживающую несколько корпоративных SaaS-продуктов. Это практическая техническая руководящая роль, где вы будете влиять на архитектуру платформы, опыт разработчиков, операционную надежность и лучшие инженерные практики. Рабочее время: Эта роль требует ежедневного взаимодействия с инженерной командой, базирующейся в США. Кандидаты должны быть доступны для работы как минимум до 15:00 по восточному времени США (EST), с возможностью работать сверх этого времени, когда того требуют бизнес-задачи.
- Платформенная инженерия
- Владеть архитектурой и эксплуатацией общей платформы, включая CI/CD, наблюдаемость, автоматизацию развертывания, управление секретами и инструментарий для разработчиков.
- Определять, внедрять и обеспечивать соблюдение стандартов платформенной инженерии для нескольких продуктов.
- Создавать и поддерживать Infrastructure as Code с помощью Terraform или OpenTofu, гарантируя, что вся инфраструктура управляется через систему контроля версий, проходит ревью и развертывается с помощью автоматизации.
- Разрабатывать self-service возможности платформы, позволяющие инженерным командам выполнять развертывание самостоятельно.
- Потоковая передача событий и обработка данных
- Проектировать и поддерживать инфраструктуру потоковой передачи событий, поддерживающую рабочие нагрузки обработки в реальном времени.
- Создавать и поддерживать инфраструктуру пакетной обработки данных наряду с транзакционными системами реального времени.
- Обеспечивать надежность, масштабируемость, производительность и экономическую эффективность сервисов платформы.
- CI/CD и развертывание
- Проектировать, создавать и поддерживать CI/CD пайплайны с использованием GitHub Actions.
- Автоматизировать восстановление после типичных сбоев пайплайнов и повышать надежность развертывания.
- Внедрять стратегии управления релизами, механизмы отката и шаблоны развертывания, такие как canary или blue-green развертывания, где это уместно.
- Наблюдаемость и надежность сайта
- Владеть и поддерживать платформу наблюдаемости с использованием Grafana, Prometheus, Loki, CloudWatch и связанных инструментов мониторинга.
- Определять Service Level Objectives (SLO), error budgets и метрики надежности для нескольких продуктов.
- Создавать интеллектуальные решения для оповещения и мониторинга, предоставляющие действенную диагностическую информацию.
- Разрабатывать процессы реагирования на инциденты, процедуры эскалации и практики посмертного анализа инцидентов.
- Внедрять безопасную автоматизированную коррекцию для хорошо изученных операционных сценариев, обеспечивая при этом контроль со стороны человека для сложных инцидентов.
- Расширение и интеграция платформы
- Оценивать недавно приобретенные продукты на предмет зрелости инфраструктуры, покрытия Infrastructure as Code, наблюдаемости и безопасности.
- Планировать и выполнять инициативы по интеграции и модернизации платформы, сводя к минимуму операционные сбои.
- Поддерживать внедрение стандартизированных возможностей платформы в нескольких инженерных командах.
- Инженерная автоматизация
- Использовать AI-assisted инженерные инструменты и автоматизацию там, где это уместно, для снижения операционных издержек.
- Автоматизировать предоставление инфраструктуры, CI/CD рабочие процессы, мониторинг, управление секретами и операционные задачи, сохраняя при этом инженерный контроль над решениями с высоким влиянием.
- Предпочтительный технологический стек
- AWS
- Terraform / OpenTofu
- GitHub Actions
- Grafana
- Prometheus
- Loki
- AWS CloudWatch
- AWS Secrets Manager или HashiCorp Vault
- Amazon ECS и EKS
- Технологии потоковой передачи событий
- Инструменты мониторинга затрат и оптимизации облака
Что ждём от вас
- 8–12 лет опыта в Platform Engineering, Site Reliability Engineering (SRE), DevOps или Cloud Infrastructure Engineering.
- Подтвержденный опыт проектирования и эксплуатации производственной платформенной инфраструктуры в нескольких средах или продуктах.
- Сильный практический опыт работы с Terraform (или OpenTofu) и Infrastructure as Code.
- Обширный опыт проектирования и поддержки CI/CD пайплайнов с использованием GitHub Actions.
- Опыт эксплуатации инфраструктуры потоковой передачи событий в производственных средах.
- Глубокая экспертиза в AWS, включая ECS, EKS, IAM, VPC, RDS, CloudWatch, сети и облачную инфраструктуру.
- Практический опыт работы с Grafana, Prometheus, Loki и корпоративными платформами наблюдаемости.
- Глубокое понимание принципов SRE, включая SLO, error budgets, реагирование на инциденты и операционное совершенство.
- Опыт проектирования масштабируемой, безопасной, высокодоступной облачной инфраструктуры.
- Отличные навыки устранения неполадок, автоматизации и решения проблем.
- Отличные коммуникативные навыки со способностью устанавливать инженерные стандарты в нескольких командах.
- Будет плюсом
- Опыт создания общих платформенных инженерных возможностей, поддерживающих несколько продуктов или бизнес-единиц.
- Опыт интеграции недавно приобретенных продуктов или модернизации устаревших платформ.
- Опыт проектирования self-service платформ для разработчиков.
- Знакомство с AI-assisted инженерными рабочими процессами и автоматизацией инфраструктуры.
- Опыт поддержки высоконагруженных корпоративных SaaS-продуктов и распределенных систем.
- Сильный фокус на оптимизации затрат в облаке и операционной эффективности.
Что предлагаем
Стек и инструменты
Подходит ли вам эта вакансия?
Зарегистрируйтесь и загрузите резюме — посчитаем % совпадения с этой вакансией, подсветим сильные стороны и что стоит подтянуть
Ещё в Genius Match
2 активные вакансии в компании
Главный агентный облачный архитектор (AWS)
~2 745 600 – 3 875 100 ₸ оценка
Стратегическая руководящая роль по проектированию и управлению AWS-архитектурой для быстрорастущей enterprise SaaS-компании. Требуется 12+ лет опыта в облачной инфраструктуре, сертификация AWS Solutions Architect (Associate обязательно, Professional предпочтительно), глубокие знания AWS Landing Zones, Terraform/CDK, Prometheus/Grafana и AI-ассистированных операций. Предлагается полностью удаленная работа, конкурентоспособная зарплата и возможность влиять на облачную стратегию и автоматизацию.
Похожие вакансии
6 вакансийСтарший DevOps инженер
Ищем старшего DevOps инженера для работы в техническом отделе. Требуется опыт с облачными платформами AWS/GCP, IaC (Terraform), CI/CD (GitHub Actions, GitLab CI), мониторингом и Docker. Предлагаем гибкий график, профессиональное развитие и корпоративные бонусы.
Инженер по автоматизации (Инфраструктура и DevOps)
~3 146 581 ₸ оценка
Ищем опытного DevOps-инженера для автоматизации инфраструктуры в проекте по солнечной энергетике. Требуются глубокие знания Terraform и Ansible, опыт с виртуализацией и CI/CD. Предлагаем удаленную работу в американском часовом поясе и участие в масштабном проекте.
DevOps-инженер / Системный администратор
~3 146 581 ₸ оценка
Ищем опытного DevOps-инженера для сопровождения и развития инфраструктуры на базе Proxmox VE и Ceph. Требуется глубокое знание Linux, автоматизации (Ansible, Terraform) и мониторинга. Предлагаем удаленную работу, официальное трудоустройство и ДМС.
Старший DevOps инженер
~1 214 550 ₸ оценка
Ciklum ищет опытного DevOps инженера для работы над заменой устаревшей платформы на современную систему на Azure. Требуется глубокое знание облачных технологий, контейнеризации и автоматизации. Компания предлагает удаленную работу, гибкий график и возможности для профессионального роста.
Azure DevOps и .NET инженер
~1 214 550 ₸ оценка
Ищем опытного Azure DevOps и .NET инженера для стабилизации и развития ресторанной платформы. Вы будете отвечать за производительность, релизы, инциденты и обновление системы на стеке .NET/C#, Azure и SQL Server. Требуется глубокое знание Azure, DBA-навыки и готовность к ночным релизам. Предлагаем удаленную работу или офис в Киеве, медстраховку и дружную команду.
DBA (Администратор баз данных)
~3 146 581 ₸ оценка
Команда финтеха Wildberries ищет опытного DBA для поддержки и развития высоконагруженных баз данных. Вы будете отвечать за отказоустойчивость, мониторинг и оптимизацию PostgreSQL и ClickHouse, автоматизировать миграции и участвовать в архитектурных обсуждениях. Предлагается гибридный или удаленный формат работы.