ML-разработчик

Вакансия для ML-разработчика с опытом работы от 3 лет. Основные задачи включают проектирование систем инференса, оптимизацию производительности и поддержку ML-инфраструктуры. Предлагается удаленная работа с возможностью карьерного роста и медицинским страхованием.

middle удалённо 300 000 – 420 000 RUR
Тип занятости
full-time
Опубликовано
21 января 2026
Языки
English: Pre-Intermediate
Вакансии в Telegram-канале
Свежие вакансии Каждый день
Подписаться

описание

Мы создаем следующее поколение продуктов на основе генеративного AI (LLM, RAG) и классического NLP. Наша цель — не только исследовательские модели, но и их промышленная эксплуатация в масштабе. Мы ищем опытного ML-разработчика, который будет проектировать, строить и поддерживать сложные, высокопроизводительные и отказоустойчивые системы машинного инференса, являющиеся фундаментом для наших AI-решений.
Проектирование и разработка систем инференса:
Создание микросервисной архитектуры для обслуживания (Serving) LLM, эмбеддинг-моделей и реранкеров с низкой задержкой (low-latency) и высокой пропускной способностью (high-throughput).
Оптимизация пайплайнов инференса для масштабирования (горизонтального и вертикального) и обеспечения отказоустойчивости (high availability, fault tolerance).
Интеграция ML-сервисов с системами оркестрации (Kubernetes), очередями сообщений и API-гейтвеями.
Инжиниринг производительности и надежности (совместно с девопсами):
Проведение глубокого бенчмаркинга и профилирования инференса (использование GPU/CPU, память, задержки) для выявления узких мест.
Реализация стратегий батчинга, кэширования, динамической балансировки нагрузки и graceful degradation для критически важных сервисов.
Настройка мониторинга, алертинга и сбора метрик (латентность, ошибки, utilization) для ML-сервисов.
Дообучение и адаптация моделей для продакшена (совместно со специалистами по дообучению)
Адаптация и оптимизация (квантование, дистилляция, компиляция) LLM и других NLP-моделей для эффективного запуска в production-среде.
Организация пайплайнов дообучения (fine-tuning) с учетом требований к воспроизводимости и версионированию данных и моделей.
Поддержка и развитие ML-инфраструктуры (совместно с девопсами и специалистами обслуживания RAG систем):
Развитие и поддержка core-компонентов для RAG-систем (векторные базы, ретрайверы, реранкеры) с упором на их производительность и надежность.
Участие в формировании лучших практик (MLOps) для развертывания (CI/CD), мониторинга и управления версиями моделей.
Требования:​​​​​​​
Опыт работы ML-инженером / MLOps-инженером от 3 лет.
Высшее техническое образование (информатика, прикладная математика, Software Engineering).
Уверенное знание Python и его экосистемы для ML/инжиниринга.
Понимание принципов разработки высоконагруженных и отказоустойчивых распределенных систем.
Производственный опыт развертывания и обслуживания ML-моделей: Знание инструментов для serving'a (Ray Serve, Triton Inference Server, KServe, vLLM, TGI).
Глубокое знание инфраструктурного стека:
Контейнеризация и оркестрация: Продвинутый опыт с Docker и Kubernetes (Deployments, Services, HPA, ресурсные ограничения).
Мониторинг и логирование: Опыт настройки Prometheus, Grafana, ELK Stack для ML-сервисов.
Проектирование API: Разработка gRPC и REST API для ML-сервисов, понимание идемпотентности, стратегий retry.
Навыки оптимизации: Опыт профилирования и ускорения инференса (использование CUDA, TensorRT, ONNX Runtime, профайлеры типа PyTorch Profiler).
Опыт работы с полным циклом LLM/RAG (сильное преимущество):
Практический опыт промпт-инжиниринга, дообучения (fine-tuning, LoRA) и запуска инференса LLM.
Понимание и опыт реализации производительных и надежных RAG-архитектур (работа с векторными БД, оптимизация пайплайнов поиска и ранжирования).
Базовые знания Big Data-стэка (Spark) для обработки данных обучения.
Знание фреймворков глубокого обучения (например PyTorch) и библиотек (Transformers, Hugging Face).​​​​​​

условия

�​​​трудоустройство в соответствии с ТК РФ
Заработная плата обсуждается по результатам собеседования и зависит от профессионального уровня кандидата
Премии - по результатам работы
Медицинское страхование (ДМС)
Возможность профессионального развития и карьерного роста
Офис в Москве, но работа удаленно.
Рабочий день с 10 до 18 часов.

Похожие вакансии

6 вакансии
Tevian
Tevian
сегодня

Backend разработчик

Вам предстоит работать с Python и нейронными сетями, проектировать REST API и поддерживать базы…

230 000 - 345 000 RUR

middle удалённо
iFellow
iFellow
сегодня

QA Fullstack (Python)

Вам предстоит тестировать веб-приложения, проводить функциональное и регрессионное тестирование, а также участвовать …

middle удалённо
аккредитованная IT-компания
аккредитованная IT-компания
16 ч. назад

Python - разработчик

Ищем разработчика на Python для работы в офисе над крупным продуктом. Вам предстоит писать новый функционал, поддержива…

middle удалённо
GigaChat
GigaChat
16 ч. назад

Разработчик Python

Вы будете заниматься разработкой и улучшением дата-пайплайнов, а также внедрением новых решений для работы с данными. Требуется опыт в Python…

middle удалённо
GigaChat
GigaChat
16 ч. назад

Разработчик моделей синтеза речи

Вам предстоит улучшать и создавать модели синтеза речи, обеспечивать их производительность и участвовать в исследовател…

middle удалённо
Международная продуктовая IT-компания
Международная продуктовая IT-компания
17 ч. назад

QA Fullstack (Python)

В этой роли вы будете заниматься тестированием высоконагруженных онлайн-сервисов, участвовать в митингах команды и работать с инстр…

middle удалённо