61 2 мес. назад активна · проверена 1 день назад

Специалист по оценке качества LLM и AI-функций

Вы будете работать над системой оценки качества LLM для продуктов Битрикс24, включая проектирование и поддержку бенчмарков. Ищем кандидата с опытом работы с LLM и их API, знанием Python и пониманием статистики. Предлагаем полную занятость с возможностью удаленной работы и конкурентоспособную зарплату.

middle удалённо ~744 700 – 1 489 400 ₸

Вакансия опубликована 79 дней назад. Может быть уже неактуальна — рекомендуем уточнить статус у работодателя перед откликом.

Войти и откликнуться hh.kz

Языки: English · Pre-Intermediate

salary intelligence

Зарплата не указана — оценили по рынку

На основе 29 похожих вакансий за 90 дней.

оценка p25–p75

744 700 – 1 489 400 ₸

медиана: 1 354 000 ₸

Хотите увидеть распределение по грейдам и городам? Зарплаты Python Калькулятор зарплат

Вакансии в Telegram-канале

Свежие вакансии Каждый день

??%

Match Score

Войдите и создайте резюме

Войти

описание

Что предстоит делать

Мы формируем в компании AI Platform Team — которая отвечает за всю инфраструктуру AI: от выбора моделей до их продуктовой эксплуатации. Наша задача — дать продуктам объективную и воспроизводимую систему оценки LLM. Чтобы каждое решение — смена модели, обновление промпта, настройка RAG — принималось на основе метрик, а не интуиции. Нам важно, чтобы вы имели практический опыт построения систем оценки качества LLM/ML-моделей. Необходимо строить бенчмарки, управлять датасетами, внедрять human-in-the-loop процессы, настраивать observability-стек (Langfuse) и встраивать eval-пайплайны в CI/CD. Чтобы команды разработки видели чёткие цифры: точность, латентность, стоимость, регрессии.

Проектирование и развитие системы оценки качества LLM и AI-функций (чат, генерация, RAG, агенты) для продуктов Битрикс24.
Построение и поддержка бенчмарков: разработка сценариев, формирование и версионирование датасетов, подбор метрик для сравнения моделей и конфигураций.
Подготовка, разметка и управление датасетами для оффлайн-оценки, включая human-in-the-loop процессы.
Настройка автоматических прогонов бенчмарков в CI/CD, формирование и визуализация отчётов для команд разработки и продукта.
Развитие observability-стека для LLM (Langfuse и другие инструменты): трассировка запросов, метрики качества, дашборды, алерты.
Участие в улучшении и оптимизации процессов разработки AI-функций, внедрение data-driven подхода к принятию решений по моделям.
Участие в ревью проектов, командной работе, внутренних митапах и обмене знаниями.
ЧТО МЫ ОЖИДАЕМ ОТ КАНДИДАТА:
Опыт работы с LLM и их API (OpenAI, Anthropic, GigaChat, локальные LLaMA/Qwen и др.), понимание их ограничений.
Конкретный опыт работы с Langfuse (настройка трейсинга, eval-ранов, дашбордов, алертов).
Навыки анализа логов и метрик, построения отчётов и визуализаций для технической и продуктовой аудитории.
Понимание принципов статистики и экспериментального дизайна (гипотезы, выборки, значимость, интерпретация результатов).
ТАКЖЕ ДЛЯ НАС ВАЖНО:
Знание языка программирования Python.
Практический опыт проектирования приложений и веб-сервисов либо внутренних инструментов для разработчиков/DS.
Понимание принципов работы баз данных и систем хранения данных (для логов, датасетов, результатов экспериментов).
Отличное знание и понимание жизненного цикла ПО, опыт работы с системами контроля версий и CI/CD.
Уверенное знание сетевых технологий на уровне, необходимом для понимания работы распределённых сервисов и API.
Базовое понимание веб-безопасности и приватности данных при работе с пользовательскими запросами и логами.
Уверенное знание ООП и современных парадигм проектирования (SOLID, Clean Architecture).
Готовность отстаивать своё мнение на основе данных и экспериментов и при этом оставаться открытым к аргументам команды.
БУДЕТ ПЛЮСОМ:
Опыт использования фреймворков для eval и оркестрации LLM (например, LangChain, LlamaIndex, LangGraph и т.п.).
Знание принципов модульного тестирования, умение писать тесты (PyTest, PHPUnit и др.).
Опыт работы в продуктовых командах, где решения по моделям принимались на основе количественных и качественных метрик.

условия

Что предлагаем

Полная занятость с возможностью удаленной работы или работы в комфортном офисе в Москве/Калининграде;

Уникальная возможность влиять на пользовательский опыт миллионов компаний по всему миру;

Работа в компании, где принятие решений основано на данных и аналитике;

Конкурентоспособная заработная плата, оформление по ТКРФ;

Программы профессионального развития и обучения;

ДМС со стоматологией после трех месяцев работы;

Сервис психологической поддержки ЯСНО;

Корпоративная культура, направленная на заботу о сотрудниках и их благополучии.

грейд

middle

формат

удалённо

зарплата

~744 700 – 1 489 400 ₸

оценка на основе 29 похожих вакансий

языки

English — Pre-Intermediate

Открыть на hh.kz

Создать резюме

Узнайте Match Score и отслеживайте отклики

В избранное

компания

Битрикс24

Москва

Компания "Битрикс24", расположенная в Москве, является ведущим разработчиком программного обеспечения для управления бизнес-процессами и коммуникацией...

вакансии

5 мес. назад

на сайте

Все вакансии Битрикс24

Ваше соответствие

??%

Match Score

войдите и создайте резюме

Войти

Telegram WhatsApp

Подходит ли вам эта вакансия?

Зарегистрируйтесь и загрузите резюме — посчитаем % совпадения с этой вакансией, подсветим сильные стороны и что стоит подтянуть

Создать аккаунт PDF-парсинг резюме за 2 минуты

??%

Match Score

Ещё в Битрикс24

2 активные вакансии в компании

Все

55 4 мес. назад

Разработчик PHP/JavaScript

Присоединяйтесь к команде Битрикс24 и участвуйте в создании продуктов для управления бизнесом. Вам предстоит разрабатывать и оптимизировать приложения, а также работать в команде, где ваши решения будут влиять на миллионы пользователей. Компания предлагает полную занятость с возможностью удаленной работы и конкурентоспособную зарплату.

PHP JavaScript MySQL +6

удал. hh hh.kz

Похожие вакансии

6 вакансий

Крупный российский банк

11 ч. назад

Python разработчик (общеплатформенные решения)

~744 700 – 1 489 400 ₸ оценка

Ищем Python-разработчика для создания общеплатформенных сервисов и инструментов для разработчиков. Нужно знание FastAPI, SQLAlchemy, Docker, Kubernetes и опыт с асинхронным кодом. Предлагают удаленную работу, гибкий график, ДМС и возможности для обучения.

Python FastAPI SQLAlchemy +13

middle удал. hh hh.kz

МАГНИТ, Розничная сеть

13 ч. назад

Fullstack-разработчик

~744 700 – 1 489 400 ₸ оценка

Ищем fullstack-разработчика для автоматизации контроля качества товаров. Нужно проектировать и разрабатывать API на Python, создавать frontend на Vue, работать с Postgres и Kubernetes. Требуется опыт от 2 лет, умение составлять ТЗ и покрывать код тестами.

Postgres Python Vue +5

middle удал. hh hh.kz

Альфа-Банк

15 ч. назад

Python разработчик (Data Office)

~744 700 – 1 489 400 ₸ оценка

Ищем Python-разработчика для внедрения и поддержки цифровых сервисов в дата-офисе. Нужен опыт от 3 лет, уверенное владение Python, FastAPI/Flask, SQL и Git. Предлагаем удаленную работу, ДМС и возможности для роста.

Python FastAPI Flask +7

middle удал. hh hh.kz

ИЦ АЙ-ТЕКО

1 д. назад

Python разработчик

~744 700 – 1 489 400 ₸ оценка

Ищем опытного Python-разработчика для создания сервисов на базе больших языковых моделей и AI-агентов. Требуется глубокий опыт в Python, машинном обучении и работе с LLM. Компания предлагает стабильную работу, белую зарплату, ДМС и профессиональное развитие.

Python LLM AI +20

middle удал. hh hh.kz

Quintagroup

1 д. назад

Python разработчик

~2 187 195 – 3 361 159 ₸ оценка

Ищем опытного Python разработчика для работы над финтех-продуктом в европейской компании. Требуется 4+ года опыта с Python и AWS, знание Django и сопутствующих технологий. Предлагают удаленную работу, гибкий график, медстраховку и долгосрочные проекты.

Python Django AWS +6

middle удал. dj Djinni

Компания

1 д. назад

ML Engineer

~2 187 195 – 3 361 159 ₸ оценка

Ищем ML-инженера с опытом от 3 лет для работы над ранжированием объявлений и оптимизацией моделей. Нужны глубокие знания Python и опыт в DevOps/MLOps. Приветствуется знание рекомендательных систем.

ML Python DevOps +2

middle удал. HR cr Careered

Источник Резюме + Match Score