крупный производитель справочно-информационного ПО

3 13 ч. назад

ML-разработчик

Вакансия для ML-разработчика с опытом работы от 3 лет. Основные задачи включают проектирование систем инференса, оптимизацию производительности и поддержку ML-инфраструктуры. Предлагается удаленная работа с возможностью карьерного роста и медицинским страхованием.

middle удалённо 300 000 – 420 000 RUR

Тип занятости

full-time

Опубликовано

21 января 2026

Языки

English: Pre-Intermediate

Вакансии в Telegram-канале

Свежие вакансии Каждый день

описание

Мы создаем следующее поколение продуктов на основе генеративного AI (LLM, RAG) и классического NLP. Наша цель — не только исследовательские модели, но и их промышленная эксплуатация в масштабе. Мы ищем опытного ML-разработчика, который будет проектировать, строить и поддерживать сложные, высокопроизводительные и отказоустойчивые системы машинного инференса, являющиеся фундаментом для наших AI-решений.

Проектирование и разработка систем инференса:

Создание микросервисной архитектуры для обслуживания (Serving) LLM, эмбеддинг-моделей и реранкеров с низкой задержкой (low-latency) и высокой пропускной способностью (high-throughput).

Оптимизация пайплайнов инференса для масштабирования (горизонтального и вертикального) и обеспечения отказоустойчивости (high availability, fault tolerance).

Интеграция ML-сервисов с системами оркестрации (Kubernetes), очередями сообщений и API-гейтвеями.

Инжиниринг производительности и надежности (совместно с девопсами):

Проведение глубокого бенчмаркинга и профилирования инференса (использование GPU/CPU, память, задержки) для выявления узких мест.

Реализация стратегий батчинга, кэширования, динамической балансировки нагрузки и graceful degradation для критически важных сервисов.

Настройка мониторинга, алертинга и сбора метрик (латентность, ошибки, utilization) для ML-сервисов.

Дообучение и адаптация моделей для продакшена (совместно со специалистами по дообучению)

Адаптация и оптимизация (квантование, дистилляция, компиляция) LLM и других NLP-моделей для эффективного запуска в production-среде.

Организация пайплайнов дообучения (fine-tuning) с учетом требований к воспроизводимости и версионированию данных и моделей.

Поддержка и развитие ML-инфраструктуры (совместно с девопсами и специалистами обслуживания RAG систем):

Развитие и поддержка core-компонентов для RAG-систем (векторные базы, ретрайверы, реранкеры) с упором на их производительность и надежность.

Участие в формировании лучших практик (MLOps) для развертывания (CI/CD), мониторинга и управления версиями моделей.

Требования:

Опыт работы ML-инженером / MLOps-инженером от 3 лет.

Высшее техническое образование (информатика, прикладная математика, Software Engineering).

Уверенное знание Python и его экосистемы для ML/инжиниринга.

Понимание принципов разработки высоконагруженных и отказоустойчивых распределенных систем.

Производственный опыт развертывания и обслуживания ML-моделей: Знание инструментов для serving'a (Ray Serve, Triton Inference Server, KServe, vLLM, TGI).

Глубокое знание инфраструктурного стека:

Контейнеризация и оркестрация: Продвинутый опыт с Docker и Kubernetes (Deployments, Services, HPA, ресурсные ограничения).

Мониторинг и логирование: Опыт настройки Prometheus, Grafana, ELK Stack для ML-сервисов.

Проектирование API: Разработка gRPC и REST API для ML-сервисов, понимание идемпотентности, стратегий retry.

Навыки оптимизации: Опыт профилирования и ускорения инференса (использование CUDA, TensorRT, ONNX Runtime, профайлеры типа PyTorch Profiler).

Опыт работы с полным циклом LLM/RAG (сильное преимущество):

Практический опыт промпт-инжиниринга, дообучения (fine-tuning, LoRA) и запуска инференса LLM.

Понимание и опыт реализации производительных и надежных RAG-архитектур (работа с векторными БД, оптимизация пайплайнов поиска и ранжирования).

Базовые знания Big Data-стэка (Spark) для обработки данных обучения.

Знание фреймворков глубокого обучения (например PyTorch) и библиотек (Transformers, Hugging Face).

условия

�трудоустройство в соответствии с ТК РФ

Заработная плата обсуждается по результатам собеседования и зависит от профессионального уровня кандидата

Премии - по результатам работы

Медицинское страхование (ДМС)

Возможность профессионального развития и карьерного роста

Офис в Москве, но работа удаленно.

Рабочий день с 10 до 18 часов.

грейд

middle

формат

удалённо

зарплата

300 000 – 420 000 RUR

языки

English — Pre-Intermediate

сравнение с рынком

ниже рынка на 87.5%

Эта вакансия ~ 360 000 ₸

в среднем 2 890 489 ₸

на основе 255 вакансий Python

Откликнуться В избранное

О компании

крупный производитель справочно-информационного ПО

Москва

Компания, расположенная в Москве, является крупным производителем справочно-информационного программного обеспечения, создающего решения для эффективн...

вакансия

3 ч. назад

на сайте

Все вакансии компании

Match Score

Войдите, чтобы увидеть насколько вакансия вам подходит

Войти

Telegram WhatsApp

ML-разработчик

описание

условия

Похожие вакансии

Backend разработчик

QA Fullstack (Python)

Python - разработчик

Разработчик Python

Разработчик моделей синтеза речи

QA Fullstack (Python)