Обязательные навыки
Текстовые модели и RAG (основной фокус):
Опыт работы с Hugging Face Transformers, LangChain (или аналогичными фреймворками)
Понимание работы с LLM, их настроек и принципов выбора
Опыт разработки RAG (Retrieval-Augmented Generation) архитектур
Prompt engineering и оптимизация запросов к LLM API
Работа с embeddings: создание, сравнение, поиск похожих текстов
Работа с векторными базами данных: Milvus, FAISS, Chroma
Работа с графовыми базами знаний: GraphRAG, Neo4j
Обработка текста: токенизация, нормализация, очистка
Работа с большими текстовыми датасетами для анализа и предиктивной аналитики
Понимание метрик качества для RAG-систем (recall@k, accuracy, faithfulness и т.д.)
Понимание особенностей Guardrails
Знание Structured Output и умение выстраивать workflow на их основе, применение Schema-guided reasoning и иных подходов
Data Science:
Python: middle-уровень (pandas, numpy, scipy)
Работа с данными: загрузка, очистка, предобработка, EDA
Понимание базовых концепций ML: обучение/валидация/тестирование
Понимание особенностей работы с временными рядами
Визуализация данных (matplotlib, seaborn, plotly)
Базовое понимание статистики и теории вероятности
Понимание метрик для различных классов задач (accuracy, precision, recall, F1, recall@k и т.д.)
Умение балансировать производительность, стоимость и качество
Понимание микросервисной архитектуры
Интеграция и развертывание:
Создание API для ML-моделей: FastAPI, Flask, REST API
Работа с базами данных: SQL (PostgreSQL) - средний уровнеь
NoSQL (MongoDB), графовые базы (Neo4j) - базовый уровень
Асинхронное программирование: asyncio, aiohttp
Базовое понимание веб-разработки
Разработка собственных workflow для интеграции моделей в продукты
Работа с арендованными GPU-серверами
Опыт работы:
2-3 года коммерческого опыта разработки с использованием ML/AI
Наличие реальных проектов с RAG-системами или интеграцией LLM
Опыт работы в команде: понимание процессов разработки, code review, git workflow
Опыт работы по Agile
Опыт интеграции ML-решений в продукты
Soft Skills:
Практичность: умение выбирать подходящие под задачу инструменты
Самостоятельность: способность находить решения под потребности бизнеса
Аналитическое мышление: умение разбираться в проблемах и дебажить проблемы в workflow c LLM
Коммуникация: способность объяснять технические решения нетехническим коллегам
Гибкость: способность переключаться между различными проектами
Желательные навыки (бонусы)
Текстовые модели: (бонус)
Fine-tuning языковых моделей с Unsloth
Опыт работы с библиотеками: PyTorch, TensorFlow, ONNX Runtime, vLLM
Опыт работы с омни-моделями
Компьютерное зрение (бонус):
Опыт работы с OpenCV, Roboflow
Опыт работы с Yolo, CLIP и аналогами
Обработка видео: форматы, кодеки, стриминг (около-реалтайм)
Детекция объектов, трекинг, сегментация
Понимание работы с Vision-Language Models (VLM)
Понимание архитектур: ResNet, EfficientNet, Vision Transformers
Работа с видео-стримами в реальном времени
Обработка речи (бонус):
Работа с STT - Whisper, RIVA, Omnilingual ASR
Синтез речи (TTS), опыт с Silero и аналогичными генераторами
Обработка аудио: librosa, soundfile, pydub
Батчевая обработка аудио