Senior NLP Engineer
Senior NLP Engineer для разработки LLM-пайплайнов обработки диалогов на казахском и русском языках. Нужен опыт в NLP/LLM, файнтюнинге, RAG и ASR. Предлагают гибридную работу в Астане, оформление в штат и интересные задачи в LegalTech.
Зарплата ниже рынка
На 15% ниже медианы Data/ML по 83 вакансиям за 90 дней.
Что предстоит делать
#вакансия #астана #гибрид #workITkz #dsml Должность: Senior NLP Engineer Компания: Виктори-Технолоджи https://victech.kz Город: Астана Занятость: гибрид Оплата: от 1 000 000 тг. Описание вакансии:
- Разработка и развитие LLM-пайплайна Stage 1: cleanup транскриптов после диаризации (Sortformer + Whisper Large V3), автоматическое определение ролей спикеров и флагирование значимых событий в диалоге;
- Разработка и развитие LLM-пайплайна Stage 2: автогенерация структурированных документов в форматах DOCX/XML для backend-системы редактирования и многоступенчатая compliance-проверка по доменным правилам (~30+ нормативных требований);
- Файнтюнинг и prompt-инженерия LLM (gpt-class и open-weight моделей) под доменную задачу на казахском и русском языках; снижение hallucination rate и стабилизация выводов между запусками;
- NER в доменных текстах: участники диалога, действия, временные и пространственные метки, нормативные ссылки;
- Семантическая сегментация транскриптов: разбиение на смысловые эпизоды и выделение ключевых моментов (формальные процедуры, ходатайства, паузы, вопрос–ответ);
- Разработка eval-методик и regression-тестов LLM-выводов; ведение бенчмарков моделей (accuracy по доменным правилам, false-positive / false-negative, стабильность между запусками);
- Создание LLM-агента, который интерпретирует поведенческие и эмоциональные сигналы от CV- и Audio-модулей и формирует связный текст аналитического характера для конечного пользователя;
- Работа с юридическими онтологиями и нормативными источниками: УПК РК (в т.ч. статьи 68, 77, 115), УК РК, Конституция РК; поддержка актуальности базы знаний при изменениях законодательства;
- Дообучение и оптимизация ASR-моделей (Whisper Large V3, Sortformer V4 для диаризации) на казахском и русском языках с адаптацией под акустику целевого помещения, фоновые шумы, региональные акценты и доменную лексику; экспорт ONNX/TensorRT и развёртывание на Jetson;
- Разработка пайплайна извлечения аудио-просодических признаков (F0/pitch, jitter, shimmer, intensity, speech rate, паузы, voice quality, eGeMAPS) и моделирование на их основе психоэмоциональных маркеров (стресс, неуверенность, эмоциональное напряжение);
- Разработка финального мультимодального fusion-слоя: интеграция текстовых эмбеддингов (NLP), аудио-просодических признаков и визуальных сигналов от CV-модуля (мимика, микродвижения, поза) в единую интерпретацию психоэмоционального состояния спикера;
- Формирование итоговых аналитических выводов для конечного пользователя в виде структурированных мультимодальных аннотаций: фрагмент диалога с просодическим контекстом и поведенческими маркерами, ранжирование моментов по уровню значимости с указанием уровня уверенности модели.
Что ждём от вас
- 3+ года в NLP/LLM; опыт production-проектов с end-to-end LLM-пайплайнами;
- Глубокое знание архитектур трансформеров и LLM; опыт файнтюнинга (LoRA / QLoRA / SFT) и instruction tuning под доменные задачи;
- Уверенное владение HuggingFace Transformers, vLLM, llama.cpp; опыт inference-оптимизации (квантование, batching, KV-cache); работа с локально развёрнутыми моделями;
- Глубокие навыки построения RAG: chunking-стратегии, векторные БД (pgvector / FAISS / Pinecone), reranking, мультиязычные embeddings (включая казахский);
- Опыт минимизации галлюцинаций: structured outputs, guardrails, constrained decoding; ведение LLM-eval (ragas, LangSmith и аналоги);
- Опыт промышленной разработки на Python (FastAPI / Flask, Docker, Git); понимание юридического домена и работы с KZ/RU языками;
- Опыт дообучения ASR-моделей (Whisper / wav2vec2 / Sortformer) на доменных данных; работа с диаризацией спикеров, спикер-эмбеддингами и шумоподавлением;
- Практический опыт извлечения и моделирования аудио-просодических и paralinguistic-признаков (librosa, openSMILE, parselmouth / Praat, eGeMAPS); понимание акустических коррелятов эмоций и стресса;
- Опыт мультимодального fusion (early / late / hybrid fusion, cross-modal attention); работа с Audio Transformers (AST, HuBERT, wav2vec2) и multimodal LLM.
- Проекты в области LegalTech и цифровизации;
- Живые задачи, быстрые решения и пространство для инициативы;
- Оформление в штат, испытательный срок 3 месяца;
- График: 5/2, 9:00–18:00.
- Контакты:
- Telegram @Lokate
- Whatsapp 87077111920
Стек и инструменты
Подходит ли вам эта вакансия?
Зарегистрируйтесь и загрузите резюме — посчитаем % совпадения с этой вакансией, подсветим сильные стороны и что стоит подтянуть
Ещё в Виктори-Технолоджи
6 активных вакансий в компании
NLP Engineer
~800 000 – 1 100 000 ₸ оценка
Разработка и внедрение NLP/LLM-решений для LegalTech: обработка диалогов, генерация документов, мультимодальный анализ. Требуется опыт 3+ лет в NLP/LLM, владение Python, HuggingFace, RAG, ASR. Предлагается работа в штате, проекты в цифровизации.
Computer Vision Research Engineer
Ищем опытного Computer Vision Research Engineer для разработки ML-моделей анализа видео и аудио. Требуется глубокое знание компьютерного зрения, опыт с PyTorch/TensorFlow и современными архитектурами (CNN, RNN, Transformer). Предлагаем работу в офисе в Астане над проектами в сфере LegalTech.
Разработчик (Oracle ADF)
Ищем опытного Java-разработчика для работы с Oracle ADF. Нужно разрабатывать и поддерживать информационные системы, оптимизировать архитектуру и интегрироваться с внешними сервисами. Требуется от 5 лет опыта и знание Oracle ADF. Предлагают удаленную работу и полный день.
Backend-разработчик
Ищем опытного Java-разработчика для создания и поддержки серверной части государственной информационной системы. Требуется уверенное владение Spring Boot, PostgreSQL и REST API. Предлагаем удаленную работу, полную занятость и быстрый найм.
Похожие вакансии
6 вакансий
Инженер AI-решений для видеоаналитики
~800 000 – 1 100 000 ₸ оценка
Ищем инженера для разработки AI-решений в области видеоаналитики для государственного проекта. Требуется опыт с Computer Vision, DeepStream, PyTorch и оптимизацией моделей. Предлагается работа с современным AI-стеком и возможность влиять на архитектуру.
NLP Engineer
~800 000 – 1 100 000 ₸ оценка
Разработка и внедрение NLP/LLM-решений для LegalTech: обработка диалогов, генерация документов, мультимодальный анализ. Требуется опыт 3+ лет в NLP/LLM, владение Python, HuggingFace, RAG, ASR. Предлагается работа в штате, проекты в цифровизации.
Старший Python разработчик (Data/ML инфраструктура)
~1 581 028 ₸ оценка
Старший Python разработчик для построения AI-инфраструктуры в iGaming. Нужно проектировать REST API, микросервисы и стриминговые пайплайны (Kafka), работать с PostgreSQL, Redis, Docker. Требуется 3+ года Python backend-разработки и опыт с асинхронностью. Предлагают удаленную работу, высокую автономию, медстраховку и бюджет на обучение.
Data Analyst / BI Developer
Ищем аналитика данных для построения дашбордов, отчетов и ETL-процессов. Требуется знание Python, Power BI, SQL и продвинутый Excel. Предлагаем стабильную работу с корпоративными бонусами и коллективными поездками.
Machine Learning Engineer
~1 000 000 – 1 050 000 ₸ оценка
Freedom Telecom ищет ML-инженера для построения и сопровождения ML-пайплайнов, обучения и развертывания моделей. Требуется опыт от 2 лет в Data Science, владение Python, SQL, Docker и CI/CD. Предлагается гибридный формат работы и карьерный рост.
Менеджер по доставке и эксплуатации AI
~1 581 028 ₸ оценка
Playtech ищет опытного менеджера для управления доставкой и эксплуатацией центральной AI-платформы. Вы будете отвечать за Agile-процессы, мониторинг, инциденты, аудит и соответствие стандартам, а также за внедрение AI-инструментов. Требуется опыт в Agile, платформенных операциях и знание AI. Предлагается гибридный график и работа в глобальной компании.