DevOps-инженер ML платформы
Ищем DevOps-инженера для поддержки и развития ML-платформы на Kubernetes. Требуется опыт администрирования K8s, знание автоматизации (Ansible, Terraform), CI/CD и мониторинга. Предлагаем гибридный или удаленный формат, ДМС, обучение и карьерный рост.
Зарплата не указана — оценили по рынку
На основе 156 похожих вакансий за 90 дней.
Что предстоит делать
- Развивать и поддерживать платформу для запуска ML workloads.
- Администрировать и диагностировать проблемы в Kubernetes-кластера ML платформы.
- Автоматизировать рутинные задачи с помощью инструментов автоматизации - python, ansible и terraform.
- Поддерживать и развивать CI/CD-пайплайны и Helm чарты для ML сервисов.
- Выполнять клиентские заявки высокой сложности в Service Desk, ESMP, Jira.
- Настраивать мониторинг ML инфраструктуры - Prometheus, Grafana, Loki, Zabbix.
- Участвовать в проработке архитекруры будущих ML сервисов со стороны эксплуатации.
- Проводить плановые работы любого уровня сложности.
- Вести документацию в рамках зоны ответственности отдела.
- Вести аварии и составлять планы пост аварийных мер на ML платформе.
Что ждём от вас
- Опыт администрирования Kubernetes кластеров от одного года.
- Понимание, как работают основные компоненты Kubernetes: kube-apiserver, scheduler, controller-manager, kubelet, kube-proxy, etcd, CoreDNS.
- Практический опыт диагностики проблем в Kubernetes: networking, scheduling, probes, ресурсы, storage, ingress, RBAC, CRD/operators.
- Опыт работы с Helm: написание, модификация, шаблонизация, отладка и проверка чартов.
- Опыт работы с системами автоматизации: Ansible и Terraform
- Уверенное знание Linux на уровне администратора
- Понимание сетей в Linux и Kubernetes: routing, iptables/nftables, IPVS, DNS, service discovery, network policies, K8S CNI Calico/Cilium
- Опыт работы с CI/CD: желателен GitLab CI.
- Понимание Gitops подхода и цикла разработки приложение для k8s.
- Знание одного из языков программирования на среднем уровне: Python или Go.
- Опыт работы с системами мониторинга и логирования: Prometheus, Grafan, Loki, Zabbix или аналоги.
- Умение самостоятельно расследовать сложные технические проблемы, читать логи, метрики, события Kubernetes и исходники/документацию при необходимости.
- Будет плюсом
- Опыт эксплуатации GPU-инфраструктуры в Kubernetes.
- Опыт работы с NVIDIA stack: GPU Operator, Network Operator, MIG, vGPU, NCCL
- Опыт с ML serving/inference технологиями: NVIDIA Triton, vLLM, Transformers, SGLang, TensorRT-LLM.
- Опыт работы с KServe, Knative, Kubeflow.
- Опыт с service mesh/gateway-слоем в k8s: Istio, Envoy Gateway, Gateway API.
- Опыт с storage в Kubernetes: Ceph/Rook
- Опыт работы с baremetal серверами и облаками.
- Понимание особенностей high-load inference workloads: long-running requests, streaming, autoscaling, GPU scheduling, лимиты ресурсов, latency, throughput.
Что предлагаем
Стек и инструменты
Подходит ли вам эта вакансия?
Зарегистрируйтесь и загрузите резюме — посчитаем % совпадения с этой вакансией, подсветим сильные стороны и что стоит подтянуть
Ещё в РТК-ЦОД
6 активных вакансий в компании
Frontend-разработчик (React)
~1 241 901 ₸ оценка
Ищем frontend-разработчика для создания приложений на React с JavaScript и TypeScript. Нужно будет интегрировать API, писать автотесты и участвовать в код-ревью. Работа в команде с бэкендерами, тестировщиками и дизайнерами.
Разработчик Ruby on Rails
~1 794 800 – 2 427 000 ₸ оценка
Ищем опытного Ruby on Rails разработчика для развития облачной платформы. Требуется опыт от 3 лет, знание SQL и тестирования. Предлагают гибридный или удаленный формат, ДМС и карьерный рост.
Инженер автоматизированного тестирования
~1 121 750 ₸ оценка
Ищем инженера автоматизированного тестирования для разработки и поддержки автотестов облачной платформы. Нужен опыт работы с Python от 3 лет, знание API и CI/CD. Предлагаем гибридный формат, соцпакет и возможности роста.
Frontend-разработчик (React/TypeScript)
~1 241 901 ₸ оценка
Ищем frontend-разработчика для работы над личным кабинетом на React/TypeScript и сайтом на Next.js. Нужно уверенное знание JavaScript, TypeScript и React, опыт интеграции с API и написания тестов. Предлагают официальное трудоустройство, гибридный или удаленный формат, ДМС и возможности для роста.
Похожие вакансии
6 вакансий
Инженер инфраструктуры (Infrastructure Engineer)
~1 089 700 ₸ оценка
Инженер инфраструктуры будет отвечать за разворачивание и обслуживание информационных систем в инфраструктуре заказчика. Требуется опыт администрирования Linux от 1 года, знание контейнеризации и сетевых технологий. Компания предлагает стабильную работу, гибкий график и возможность профессионального развития.
DevOps / Infrastructure Engineer
~1 089 700 ₸ оценка
Вакансія DevOps / Infrastructure Engineer для роботи з хмарними платформами (AWS, DigitalOcean), CI/CD, автоматизацією та безпекою інфраструктури. Потрібен досвід з GitHub, Terraform, Docker, Kubernetes та Linux. Пропонується віддалена робота.
Системный администратор / DevOps
~1 089 700 ₸ оценка
Ищем системного администратора, готового развиваться в DevOps. Нужно обслуживать IT-инфраструктуру офиса и проектов: Windows, Linux, сети, виртуализация, Docker, Kubernetes, CI/CD, мониторинг. Предлагаем стабильную работу в российской IT-компании с ДМС и гибким графиком.
DevOps-инженер (сопровождение банковских ИС)
~1 089 700 ₸ оценка
Вакансия для DevOps-инженера по сопровождению банковских интеграционных систем. Требуются знания Kubernetes, Linux, SQL, скриптовых языков (bash, python) и DevOps-инструментов. Предлагается работа в крупной компании с возможностью развития в области надежности и автоматизации.
Системный администратор / IT-инженер
~1 089 700 ₸ оценка
Компания ищет системного администратора для гибридной работы в Москве. В задачи входит администрирование сети, поддержка пользователей, работа с 1С и бухгалтерскими системами, а также внедрение нейросетевых инструментов. Требуется опыт с Windows, сетевыми технологиями, КриптоПРО и ЭДО. Предлагается частичная занятость.
DevOps / SRE инженер (PHP)
~1 089 700 ₸ оценка
Ищем опытного PHP-разработчика для работы в DevOps/SRE-команде международной компании. Нужно реагировать на инциденты, автоматизировать задачи, улучшать мониторинг и писать постмортемы. Требуется опыт от 2 лет на PHP, знание Docker, PostgreSQL и высоконагруженных систем. Предлагают полную удаленку, график 2/2, ДМС и обучение.