6 сегодня

Инженер по оптимизации инфраструктуры RL-обучения

Мы ищем инженера, который будет заниматься оптимизацией инфраструктуры RL-обучения. Важные требования: знание Python, опыт работы с PyTorch и распределённым обучением. Предлагаем интересные задачи и возможность развиваться в области ML.

middle удалённо
Тип занятости
full-time
Опубликовано
18 февраля 2026
Языки
English: Pre-Intermediate
Вакансии в Telegram-канале
Свежие вакансии Каждый день
Подписаться
??%
Match Score
Войдите и создайте резюме
Войти

описание

О вакансии Мы создаём инфраструктуру для обучения и дообучения больших языковых (LLM) и визуально-языковых (VLM) моделей, которые используются в Алисе, Поиске, Рекламе и других сервисах Яндекса. Современное обучение таких моделей — это сложная система, которая включает десятки тысяч серверов, миллионы вычислительных ядер и многоуровневые соединения между ними. Наша задача — сделать эту систему максимально эффективной, рационально используя вычислительные ресурсы и минимизируя риски сбоев. Обучение моделей превратилось в задачу управления сложными распределёнными системами. Нужно обеспечивать отказоустойчивость, эффективную доставку данных и минимизировать задержки в коммуникациях. Чем сложнее система, тем больше точек отказа, а чем больше ресурсов нужно на обучение, тем выше накладные расходы на запуск. Наша команда работает на стыке ML-математики и «железной» инфраструктуры: мы должны понимать и особенности аппаратного обеспечения (GPU, сети, шины данных, диски, память), и нюансы самого процесса обучения: составные части, взаимодействие компонентов, узкие места. Один из популярных подходов к обучению LLM — обучение с подкреплением, Reinforcement Learning, RL. С ростом популярности этого метода появляются всё более сложные подходы, увеличивается потребность в вычислительных ресурсах — и, как следствие, возникает необходимость строить специализированную инфраструктуру. Какие задачи вас ждут: • Оптимизация инфраструктуры RL-обученияВам предстоит улучшать ключевые компоненты: оптимизировать доставку и сохранение данных, оптимизировать коммуникации между блоками обучения, повышать эффективность работы внутри блоков. • Развитие инструментов диагностики Вы будете создавать и совершенствовать инструменты, которые позволят быстро выявлять и устранять инфраструктурные проблемы.. • Повышение отказоустойчивости инфраструктуры Предстоит реализовывать подходы, которые сделают инфраструктуру обучения устойчивой к различным ошибкам и сбоям. • Исследование и внедрение современных решений Будете изучать новейшие подходы к организации инфраструктуры RL-обучения, оценивать их эффективность и внедрять в реальные проекты. Мы ждем, что вы: • Знаете Python и имеете опыт системного программирования, разработки библиотек или фреймворков • Хорошо знакомы и работали на практике с фреймворком PyTorch и распределённым обучением через torch.distributed • Владеете подходами параллелизации: понимаете data parallelism, tensor parallelism, pipeline parallelism, expert parallelism для распределённого инференса или обучения • Интересуетесь LLM и MLOps: понимаете задачи и вызовы, которые связаны с эксплуатацией больших моделей в продакшне • Умеете эффективно работать в команде и делиться знаниями Будет плюсом, если вы: • Участвовали в создании инфраструктуры обучения ML-моделей • Внедряли и оптимизировали RL-решения • Работали с библиотеками RL-обучения для LLM: veRL, slime, NeMo-RL, SkyRL и другими, а также с библиотеками инференса: vLLM, SGLang и TRTLLM • Владеете C++ и имеете опыт низкоуровневого программирования и оптимизации • Имеете опыт с GPU NVIDIA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы с использованием CUDA или Triton

Похожие вакансии

6 вакансии
Ренессанс Банк
Ренессанс Банк
сегодня

Разработчик ML-моделей

Присоединяйтесь к команде Ренессанс Банка, где вы будете разрабатывать и улучшать ML-модели. Ищем специалиста с опытом работы в банковской сфере и знанием Python и SQL. Предлагаем гибридный или удаленный формат работы и множество социальных льгот.

middle удал.
Grand Line
Grand Line
сегодня

Разработчик AI-сервисов

В этой роли вы будете заниматься разработкой мультиагентных RAG-систем и интеграцией LLM в корпоративные приложения. Требуется опыт работы с Hugging Face Transformers и знание Python на уровне middle. Предлагается работа в команде с возможностью карьерного роста.

AI · Machine Learning · Natural Language Processing ·+1

middle удал.
Aston
Aston
сегодня

Python Developer

Aston ищет Python Developer с опытом от 1,5 лет для работы над проектами в финтехе. Вы получите возможность развиваться в команде, работать с современными технологиями и участвовать в интересных проектах. Компания предлагает гибкий формат работы и социальный пакет.

middle удал.
YADRO TELECOM
YADRO TELECOM
сегодня

Разработчик симуляторов сетевого оборудования

Вакансия для разработчика симуляторов сетевого оборудования в YADRO TELECOM. Ищем специалиста с опытом разработки на Python и знанием Docker. Предлагаем гибридный формат работы и конкурентную зарплату.

middle удал.
Okko
Okko
сегодня

Auto QA инженер

Вакансия для опытного Auto QA инженера с навыками в Python и UI-автоматизации. Предлагаем удаленную работу, официальное трудоустройство и множество корпоративных преимуществ, включая ДМС и льготные условия ипотеки.

Python · Pytest

middle удал.
Ozon
Ozon
сегодня

QA Automation Engineer

Присоединяйтесь к команде, которая разрабатывает брокерские продукты с акцентом на качество и автоматизацию. Вы будете работать с Python и CI, а также иметь возможность влиять на стратегию тестирования с самого начала проекта.

Python · Pytest · Автоматизация тестирования ·+1

middle удал.