Мы в поиске практикующего эксперта, готового работать на стыке DevOps и ML-инфраструктуры. Нам нужен человек с архитектурным мышлением, способный полностью вести инфраструктурные проекты — от идеи до результата.
1. Поддержка и развитие инфраструктуры LLM
Разворачивать и обновлять inference-сервисы (vLLM, TGI, Ollama) в кластере Deckhouse Kubernetes
Управлять GPU-нодами (2×H100): профили, квоты, allocation, DCGM-мониторинг.
Настраивать OpenWebUI (обновления, кастомные ассистенты, плагины, pipelines)
Настраивать CI/CD пайплайны для моделей и ассистентов (через GitLab CI/CD, Helm, ArgoCD).
Управлять хранилищами (PVC, MinIO/S3) для индексов и документов.
2. RAG
Настраивать пайплайны загрузки документов (Confluence, регламенты, файлы).
Оптимизировать параметры retrieval: chunk size, overlap, embedding-модели.
Настраивать интеграции с Langfuse (datasets, traces, evals) для оценки качества.
Разворачивать и обновлять LlamaIndex, Chroma, Postgres Vector — по мере масштабирования.
3. Интеграции и инструменты
Подключать новые MCP-инструменты (Jira, 1С, DWH, Контур-Фокус и др.) к ассистентам.
Разворачивать новые сервисные модули (например, Langfuse, LlamaIndex, Eval серверы).
Прокидывать порты, настраивать Ingress, Secrets, RBAC.
4. Наблюдаемость и качество
Настраивать мониторинг (Prometheus/Grafana, Langfuse)
Настраивать nightly evals (через Langfuse Datasets + judge-скоры).
5. Безопасность и контроль
Настраивать роли и лимиты в RBAC (OpenWebUI + Keycloak).
Реализовывать маскировку PII (телефоны, ИНН, e-mail) в пайплайнах.
Мы ищем человека, который:
Обладает системным мышлением, способный вести инфраструктурные проекты от концепции до промышленной эксплуатации;
Работает на стыке DevOps и ML-инфраструктуры, предпочитая задачи построения продуктовой LLM-платформы исследовательским экспериментам.
Что нужно от тебя:
Опыт работы с LLM-моделями (vLLM, TGI, Hugging Face, Ollama).
Практический опыт с Python (FastAPI, скрипты, CLI).
Понимание архитектуры RAG и работы с embedding-моделями.
Навыки настройки Prometheus/Grafana, анализа метрик производительности.
Опыт работы с системами аутентификации (Keycloak, JWT).
Уверенные знания Kubernetes, Docker, CI/CD (GitLab/Helm).
Понимание принципов RBAC, изоляции данных, PII-безопасности.
Будет плюсом:
Опыт работы с Deckhouse или другими K8s-дистрибутивами.
Знание Langfuse, LlamaIndex, Postgres Vector, Chroma.
Базовые знания MLOps (модели, fine-tuning, quantization, caching).
Опыт интеграции API внешних систем (Jira, 1С, DWH).
Умение писать внутренние утилиты и документацию.