Staff/Старший DevOps инженер
Runware ищет опытного DevOps/SRE инженера для развития и масштабирования инфраструктуры глобальной AI-платформы. Вы будете автоматизировать операции, улучшать наблюдаемость и обеспечивать надежность высокопроизводительных систем с GPU. Компания предлагает полную удаленку, гибкий график и участие в акционерном капитале.
Зарплата не указана — оценили по рынку
На основе 244 похожих вакансий за 90 дней.
Что предстоит делать
Штаб-квартира: Великобритания URL: http://runware.ai **Описание** Runware создает API-слой для следующего поколения AI-продуктов. Наша платформа предоставляет командам быстрый и надежный доступ к инференсу в реальном времени через тысячи моделей с помощью единого гибкого API. Мы помогаем клиентам создавать и масштабировать продукты для генерации медиаконтента с лучшей производительностью, меньшей стоимостью и меньшей операционной сложностью. За этим стоит инфраструктурная платформа, созданная для скорости, надежности и масштабирования GPU. Новые модели запускаются постоянно. Трафик клиентов может быстро расти. Производительность важна на каждом уровне. Мы ищем Staff/Senior DevOps Engineer, который поможет создавать, эксплуатировать и масштабировать инфраструктуру, лежащую в основе глобальной платформы AI-инференса Runware. Вы сыграете ключевую роль в том, чтобы сделать наши системы быстрее, устойчивее, проще в эксплуатации и готовыми к следующему этапу роста. **О роли** Инфраструктура Runware — это движок, стоящий за одними из самых быстрорастущих AI-продуктов в мире. В роли Staff/Senior DevOps Engineer вы будете помогать проектировать, создавать и эксплуатировать системы, обеспечивающие AI-инференс в реальном времени на крупномасштабных GPU-фермах и глобальной производственной платформе. Это не традиционная DevOps-роль. Вы будете работать на стыке bare-metal инфраструктуры, GPU, сетей, автоматизации, observability и высокопроизводительных распределенных систем. Ваша работа напрямую повлияет на то, как быстро мы сможем запускать новые модели, масштабировать клиентский трафик, восстанавливаться после сбоев и предоставлять миллионам пользователей AI-опыт с низкой задержкой. Вы превратите сложную, аппаратно-ориентированную инфраструктуру в надежные, автоматизированные и удобные для разработчиков платформы. От provisioning и оркестрации до пайплайнов развертывания, мониторинга, реагирования на инциденты и масштабирования мощностей — вы поможете устранить трения, чтобы инженерные команды могли двигаться быстрее без ущерба для надежности. Вы создадите основы, которые позволят Runware масштабироваться с уверенностью: инфраструктуру, которая будет быстрой, устойчивой, наблюдаемой, безопасной и созданной для требований AI в реальном времени. **Что вы будете делать** - Создавать и масштабировать инфраструктуру, обеспечивающую AI-инференс в реальном времени на GPU-фермах, bare-metal серверах, serverless и контейнеризированных производственных системах - Помогать развивать платформу Runware в сторону более эластичной, on-demand инфраструктуры, способной быстро масштабироваться под клиентский трафик и спрос на модели - Делать Runware быстрее, надежнее и устойчивее, улучшая критические пути наших точек входа запросов, сервисов инференса, очередей, хранилищ, балансировщиков нагрузки и сетевого уровня - Автоматизировать сложные части операций с инфраструктурой: от provisioning и конфигурации до CI/CD, безопасности развертывания, прогрессивных rollout и быстрого отката - Создавать observability backbone для высокопроизводительной AI-платформы с сигналами, необходимыми для раннего обнаружения проблем, понимания загрузки мощностей и устранения неполадок до того, как их почувствуют клиенты - Играть ведущую роль в производственных операциях, реагировании на инциденты, отладке и улучшениях после инцидентов, помогая превращать операционные вызовы в более надежную платформу - Укреплять основы безопасности и соответствия требованиям нашей инфраструктуры через патчинг, управление секретами, контроль доступа, ужесточение настроек, аудит, документацию и повторяемые операционные процессы **Требования** - Значительный опыт работы в роли DevOps Engineer, SRE, Infrastructure Engineer, Platform Engineer или аналогичной, с подтвержденным опытом эксплуатации производственных систем в масштабе - Глубокие знания Linux и уверенность в отладке реальных производственных проблем на уровне сетей, хранилищ, производительности, сервисов и поведения системы - Практический опыт создания автоматизации, Infrastructure-as-Code, CI/CD пайплайнов и рабочих процессов развертывания, которые делают инфраструктуру безопаснее и проще в эксплуатации - Опыт эксплуатации платформ с высокой доступностью, низкой задержкой или высокой пропускной способностью, где надежность и производительность напрямую влияют на клиентов - Хорошее понимание основ сетей: TCP/IP, DNS, балансировка нагрузки, маршрутизация, межсетевые экраны, прокси, TLS и HTTP - Спокойный и прагматичный подход под давлением, сильные коммуникативные навыки, хорошее чувство меры и склонность к автоматизации вместо ручного труда **Будет плюсом** - Опыт эксплуатации GPU-инфраструктуры для AI/ML инференса, включая NVIDIA драйверы, CUDA, контейнерные рантаймы, мониторинг GPU, планирование мощностей и изоляцию рабочих нагрузок - Знакомство с фреймворками для serving и оптимизации инференса, такими как vLLM, TensorRT, Triton или аналогичными **Преимущества** Мы — распределенная команда, работающая удаленно, встречающаяся лично дважды в год для планирования, мозговых штурмов, празднования побед и неформального общения. У нас есть основные часы для совместной работы и звонков, но за их пределами ваш календарь принадлежит вам. Работайте в часы, которые позволяют вам быть максимально продуктивным, сохраняя при этом здоровый образ жизни. Наши циклы релизов быстрые и интенсивные, но за ними следует настоящий отдых. После крупных запусков мы ожидаем, что команда отключится, восстановит силы и вернется готовой и более сильной, чем когда-либо, к следующему рывку. - Щедрый оплачиваемый отпуск — отпуск, больничные, государственные праздники - Значимые опционы на акции — доля в успехе, который вы создаете - Работа в первую очередь удаленно — работайте из дома в любой точке, где мы можем вас нанять - Гибкий график — управляйте своим расписанием за пределами основных блоков для совместной работы - Отпуск по семейным обстоятельствам — оплачиваемый отпуск по беременности, отцовству и уходу за близкими - Корпоративные выезды — дважды в год встречи в вдохновляющих местах **Чтобы подать заявку:** https://weworkremotely.com/remote-jobs/runware-staff-devops-engineer
Стек и инструменты
Подходит ли вам эта вакансия?
Зарегистрируйтесь и загрузите резюме — посчитаем % совпадения с этой вакансией, подсветим сильные стороны и что стоит подтянуть
Похожие вакансии
6 вакансий
Старший инженер-программист с облачной наблюдаемостью
Ищем старшего инженера-программиста для работы с облачной наблюдаемостью. Требуется опыт в Python, Golang и публичных облаках. Предлагаем удаленную работу.
Старший Cloud Engineer
Ищем опытного Cloud Engineer для работы с Python и Azure. Вы будете заниматься облачной инфраструктурой и автоматизацией. Предлагается удаленный формат работы.
Старший DevOps инженер (GCP)
Ищем старшего DevOps инженера для работы с GCP и Kubernetes. Требуется опыт с Python и облачными технологиями. Предлагаем удаленную работу.
Старший Linux/DevSecOps инженер с продвинутыми навыками Python
Ищем старшего DevSecOps инженера с глубокими знаниями Python и Linux. Вы будете обеспечивать безопасность инфраструктуры и автоматизировать процессы. Предлагаем удаленную работу и гибкий график.
Microsoft DevOps / AI Архитектор (Azure | M365 | D365)
Ищем эксперта по Azure и AI для архитектурных решений в облаке. Требуется опыт с Azure, M365, D365 и AI. Предлагаем удаленную работу и интересные проекты.
Ведущий DevSecOps менеджер
Ищем опытного DevSecOps менеджера для руководства процессами безопасности и автоматизации. Требуется знание GitLab и Bitrise. Предлагается удаленная работа.