Битрикс24

5 сегодня

Специалист по оценке качества LLM и AI-функций

Мы ищем специалиста, который поможет нам создать систему оценки качества AI-функций для продуктов Битрикс24. Вам предстоит работать с LLM, строить бенчмарки и внедрять data-driven подходы. Мы предлагаем полную занятость с возможностью удаленной работы и конкурентоспособную зарплату.

middle удалённо

Тип занятости

full-time

Опубликовано

12 февраля 2026

Языки

English: Pre-Intermediate

Вакансии в Telegram-канале

Свежие вакансии Каждый день

??%

Match Score

Войдите и создайте резюме

Войти

описание

Мы формируем в компании AI Platform Team — которая отвечает за всю инфраструктуру AI: от выбора моделей до их продуктовой эксплуатации. Наша задача — дать продуктам объективную и воспроизводимую систему оценки LLM. Чтобы каждое решение — смена модели, обновление промпта, настройка RAG — принималось на основе метрик, а не интуиции. Нам важно, чтобы вы имели практический опыт построения систем оценки качества LLM/ML-моделей. Необходимо строить бенчмарки, управлять датасетами, внедрять human-in-the-loop процессы, настраивать observability-стек (Langfuse) и встраивать eval-пайплайны в CI/CD. Чтобы команды разработки видели чёткие цифры: точность, латентность, стоимость, регрессии.

Проектирование и развитие системы оценки качества LLM и AI-функций (чат, генерация, RAG, агенты) для продуктов Битрикс24.

Построение и поддержка бенчмарков: разработка сценариев, формирование и версионирование датасетов, подбор метрик для сравнения моделей и конфигураций.

Подготовка, разметка и управление датасетами для оффлайн-оценки, включая human-in-the-loop процессы.

Настройка автоматических прогонов бенчмарков в CI/CD, формирование и визуализация отчётов для команд разработки и продукта.

Развитие observability-стека для LLM (Langfuse и другие инструменты): трассировка запросов, метрики качества, дашборды, алерты.

Участие в улучшении и оптимизации процессов разработки AI-функций, внедрение data-driven подхода к принятию решений по моделям.

Участие в ревью проектов, командной работе, внутренних митапах и обмене знаниями.

ЧТО МЫ ОЖИДАЕМ ОТ КАНДИДАТА:

Опыт работы с LLM и их API (OpenAI, Anthropic, GigaChat, локальные LLaMA/Qwen и др.), понимание их ограничений.

Конкретный опыт работы с Langfuse (настройка трейсинга, eval-ранов, дашбордов, алертов).

Навыки анализа логов и метрик, построения отчётов и визуализаций для технической и продуктовой аудитории.

Понимание принципов статистики и экспериментального дизайна (гипотезы, выборки, значимость, интерпретация результатов).

ТАКЖЕ ДЛЯ НАС ВАЖНО:

Знание языка программирования Python.

Практический опыт проектирования приложений и веб-сервисов либо внутренних инструментов для разработчиков/DS.

Понимание принципов работы баз данных и систем хранения данных (для логов, датасетов, результатов экспериментов).

Отличное знание и понимание жизненного цикла ПО, опыт работы с системами контроля версий и CI/CD.

Уверенное знание сетевых технологий на уровне, необходимом для понимания работы распределённых сервисов и API.

Базовое понимание веб-безопасности и приватности данных при работе с пользовательскими запросами и логами.

Уверенное знание ООП и современных парадигм проектирования (SOLID, Clean Architecture).

Готовность отстаивать своё мнение на основе данных и экспериментов и при этом оставаться открытым к аргументам команды.

БУДЕТ ПЛЮСОМ:

Опыт использования фреймворков для eval и оркестрации LLM (например, LangChain, LlamaIndex, LangGraph и т.п.).

Знание принципов модульного тестирования, умение писать тесты (PyTest, PHPUnit и др.).

Опыт работы в продуктовых командах, где решения по моделям принимались на основе количественных и качественных метрик.

условия

Полная занятость с возможностью удаленной работы или работы в комфортном офисе в Москве/Калининграде;

Уникальная возможность влиять на пользовательский опыт миллионов компаний по всему миру;

Работа в компании, где принятие решений основано на данных и аналитике;

Конкурентоспособная заработная плата, оформление по ТКРФ;

Программы профессионального развития и обучения;

ДМС со стоматологией после трех месяцев работы;

Сервис психологической поддержки ЯСНО;

Корпоративная культура, направленная на заботу о сотрудниках и их благополучии.

навыки

AI ML LLM Python CI/CD

грейд

middle

формат

удалённо

зарплата

зп не указана

языки

English — Pre-Intermediate

Откликнуться В избранное

О компании

Битрикс24

Москва

Компания "Битрикс24", расположенная в Москве, является ведущим разработчиком программного обеспечения для управления бизнес-процессами и коммуникацией...

вакансии

2 мес. назад

на сайте

Все вакансии компании

Ваше соответствие

??%

Match Score

войдите и создайте резюме

Войти

Telegram WhatsApp

Похожие вакансии

6 вакансии

Ozon

сегодня

QA Engineer

Вакансия QA Engineer в Ozon предлагает возможность тестировать критически важные системы и участвовать в разработке инструментов для QA. Ищем специалиста со знанием Python и SQL, который понимает микросервисную архитектуру и хочет работать в команде, ценящей инициативу и открытость.

Разработка склада · Pytest · Python ·+2

middle удал.

Медиа Ком

сегодня

Тестировщик сетевых продуктов

Ищем тестировщика для работы с сетевыми продуктами. Обязанности включают разработку автотестов, настройку тестового окружения и тестирование по требованиям. Удаленная работа в команде профессионалов с интересными задачами.

Linux · Windows Os · Python ·+4

middle удал.

Крупная международная компания

сегодня

Инженер по тестированию машинного обучения

Ищем инженера по тестированию машинного обучения для работы в международной компании. Основные задачи включают тестирование ML моделей, разработку новых сервисов и ведение документации. Требуется опыт в Python и смежных технологиях, а также желание развиваться в области искусственного интеллекта.

middle удал.

Hoff Tech

сегодня

Разработчик в команду генеративного ИИ

Вам нужно будет разрабатывать и улучшать модели, а также применять ML/AI для решения бизнес-задач. Компания предлагает оформление по ТК, белую зарплату, возможность удаленной работы и множество социальных льгот.

LLM · NLP · Python ·+2

middle удал.

БЮРО 1440

сегодня

QA Engineer

Мы ищем QA Engineer с опытом тестирования от 2 лет, который будет заниматься тестированием Web и API, а также автоматизацией тестирования на Python. Предлагаем гибкий формат работы и конкурентную зарплату.

SQL · HTTP · REST ·+3

middle удал.

Ozon

сегодня

Инженер по тестированию

Вакансия для инженера по тестированию в Ozon. Основные задачи включают создание тест-планов, разработку автотестов и ручное тестирование. Требуется опыт работы с Python и знание тестовых фреймворков, а также понимание микросервисной архитектуры.

Python · QA · IT

middle удал.

Откликнуться