31 1 мес. назад

Инженер по оптимизации инфраструктуры RL-обучения

Мы ищем инженера, который будет заниматься оптимизацией инфраструктуры RL-обучения. Важные требования: знание Python, опыт работы с PyTorch и распределённым обучением. Предлагаем интересные задачи и возможность развиваться в области ML.

middle удалённо
Тип занятости
full-time
Опубликовано
10 декабря 2025
Языки
English: Pre-Intermediate
Вакансии в Telegram-канале
Свежие вакансии Каждый день
Подписаться

описание

О вакансии Мы создаём инфраструктуру для обучения и дообучения больших языковых (LLM) и визуально-языковых (VLM) моделей, которые используются в Алисе, Поиске, Рекламе и других сервисах Яндекса. Современное обучение таких моделей — это сложная система, которая включает десятки тысяч серверов, миллионы вычислительных ядер и многоуровневые соединения между ними. Наша задача — сделать эту систему максимально эффективной, рационально используя вычислительные ресурсы и минимизируя риски сбоев. Обучение моделей превратилось в задачу управления сложными распределёнными системами. Нужно обеспечивать отказоустойчивость, эффективную доставку данных и минимизировать задержки в коммуникациях. Чем сложнее система, тем больше точек отказа, а чем больше ресурсов нужно на обучение, тем выше накладные расходы на запуск. Наша команда работает на стыке ML-математики и «железной» инфраструктуры: мы должны понимать и особенности аппаратного обеспечения (GPU, сети, шины данных, диски, память), и нюансы самого процесса обучения: составные части, взаимодействие компонентов, узкие места. Один из популярных подходов к обучению LLM — обучение с подкреплением, Reinforcement Learning, RL. С ростом популярности этого метода появляются всё более сложные подходы, увеличивается потребность в вычислительных ресурсах — и, как следствие, возникает необходимость строить специализированную инфраструктуру. Какие задачи вас ждут: • Оптимизация инфраструктуры RL-обученияВам предстоит улучшать ключевые компоненты: оптимизировать доставку и сохранение данных, оптимизировать коммуникации между блоками обучения, повышать эффективность работы внутри блоков. • Развитие инструментов диагностики Вы будете создавать и совершенствовать инструменты, которые позволят быстро выявлять и устранять инфраструктурные проблемы.. • Повышение отказоустойчивости инфраструктуры Предстоит реализовывать подходы, которые сделают инфраструктуру обучения устойчивой к различным ошибкам и сбоям. • Исследование и внедрение современных решений Будете изучать новейшие подходы к организации инфраструктуры RL-обучения, оценивать их эффективность и внедрять в реальные проекты. Мы ждем, что вы: • Знаете Python и имеете опыт системного программирования, разработки библиотек или фреймворков • Хорошо знакомы и работали на практике с фреймворком PyTorch и распределённым обучением через torch.distributed • Владеете подходами параллелизации: понимаете data parallelism, tensor parallelism, pipeline parallelism, expert parallelism для распределённого инференса или обучения • Интересуетесь LLM и MLOps: понимаете задачи и вызовы, которые связаны с эксплуатацией больших моделей в продакшне • Умеете эффективно работать в команде и делиться знаниями Будет плюсом, если вы: • Участвовали в создании инфраструктуры обучения ML-моделей • Внедряли и оптимизировали RL-решения • Работали с библиотеками RL-обучения для LLM: veRL, slime, NeMo-RL, SkyRL и другими, а также с библиотеками инференса: vLLM, SGLang и TRTLLM • Владеете C++ и имеете опыт низкоуровневого программирования и оптимизации • Имеете опыт с GPU NVIDIA: понимаете архитектуру GPU, разрабатывали или оптимизировали алгоритмы с использованием CUDA или Triton

Похожие вакансии

6 вакансии
Bastau Project
Bastau Project
11 ч. назад

Разработчик Python (Django/Wagtail)

Ищем разработчика с опытом работы в веб-разработке для создания корпоративного портала. Основные требования: уверенное владение P…

middle удалённо
БЮРО 1440
БЮРО 1440
12 ч. назад

QA Engineer

Ищем QA Engineer для разработки автотестов и анализа тестов. Требуется знание P…

middle удалённо
Domclick.ru
Domclick.ru
12 ч. назад

Разработчик Python

Вам предстоит реализовывать производительные сервисы на Python, участвовать в проектировании архитектуры и ин…

middle удалённо
GigaChat
GigaChat
1 д. назад

Data Engineer / Developer

Вакансия для Data Engineer / Developer в GigaChat. Основные задачи включают написание пайплайнов обработки данных, улучше…

middle удалённо
Wildberries и Russ
Wildberries и Russ
1 д. назад

Middle+/Senior Python разработчик

Компания Wildberries и Russ ищет Middle+/Senior Python разработчика для работы с ML-моделями и оптимизации инфраструктуры. Требуются г…

middle удалённо
MarfaTech
MarfaTech
1 д. назад

QA Automation Engineer (Python)

Присоединяйтесь к команде MarfaTech в роли QA Automation Engineer, где вы будете разрабатывать и поддерживать автоматизированные тесты для…

middle удалённо