15
6 д. назад
Разработчик платформы данных
Ищем разработчика для работы над платформой данных, использующей Spark и Scala. Требуется опыт работы с Linux, Docker, SQL и DevOps-процессами. Возможен рост до технического лидера в команде.
middle
удалённо
Опубликовано
29 января 2026
Вакансии в Telegram-канале
Свежие вакансии
Каждый день
описание
Разработка и внедрение Платформы Данных в новой парадигме DataMesh.
В рамках платформы создан Домен данных Розницы.
В нем будут использованы инструменты и сервисы, поставляемые платформой.
А также часть инструментов будет дорабатываться\внедряться командой Домена.
Домен является поставщиком(основная функция) и потребителем данных других доменов (типа орг. структура, НСИ и т.п.).
Стек:
• Spark, SparkStreaming, Scala, как язык для перекладки и обработки данных (ETL).
Хранение данных:
• ClickHouse - зона витрин и для отчетов BI;
• GreenPlum - публичная зона для обмена данными между доменами;
• IceBerg, HDFS, S3, - детальные данные Домена;
• На развитие в плане использование Tarantool, Cassandra. Оркестраторы:из пула Argo, Dagster, AirFlow.
• BI: FineBI, PowerBI, SuperSet;
• Среда доступа к данным через SQL: Trino.
Разработка кода загрузки данных из источников в модель данных;
Домена, разработка кода загрузки Витрин;
Проработка с архитектором решений по загрузке и архитектуре кода загрузки;
Подготовка комплекта поставки (релиз) для тестирования и передачи в пром-среду;
Анализ ошибок при возникновении и подготовка баг-фиксов;
Участие в приемо-сдаточных испытания при необходимости;
Рост в сторону Тех. Лида по разработке дата-продуктов с передачей знаний по разработке новым разработчикам;
требования
Опыт работы с Linux на достаточном уровне для работы с файлами, каталогами, основными операциями. Чтение логов, bash-скриптов;
Опыт работы в аналогичной роли от 3-х лет;
Работа с пакетами (установка, обновление и т.п.), настройка cron, cgroups, работа с процессами (нагрузка, порты, kill..);
Опыт работы с GIT, BitBucket - работа в команде разработчиков, ревью кода, pull request, merge, clone, commit, pull, push, stash;
Опыт работы с Docker/K8s;
Опыт работы с системами логирования и мониторинга - Kibana, Grafana, OpenSearch, Splunk, Elasticsearch, Logstash;
Опыт работы с Devops-процессами: Jenkins, Teamcity, опыт в формировании поставки релизов с применением CI/CD подходовж
Опыт работы с SQL - понимание как работает сервер БД с данными, запросами, грантами, транзакциями, индексами и т.п.;
Опыт в разработке ETL/ELT кода либо на инструменте ETL, либо на SQL и процедурном языке БД. Оптимизация запросов;
Опыт работы с NoSQL - архитектура, принцип работы сервера, особенности работы с данными;
Опыт в разработке на Spark / Spark Streaming / pySpark;
Опыт работы с большими объемами данных, применение необходимых подходов и библиотек для загрузки/выгрузки/обработки данных
Будет плюсом:
Знание / опыт работы с Iceberg, Hudi, Deltalake.
Опыт работы с оркестраторами потоков данных, например Argo, Dagster, AirFlow.
навыки
Похожие вакансии
6 вакансии
Data Engineer
Компания ищет Data Engineer для разработки и поддержки хранилища данных. Требуется знание SQL, Python и опыт раб…
middle
удалённо
Инженер по данным
В компании Banks Soft Systems открыта вакансия инженера по данным. Вы будете заниматься разработкой и сопровождением ETL-проце…
middle
удалённо
Дата-саентист
Вакансия для дата-саентиста, который будет заниматься разработкой ИИ-сервисов и решением задач в области машинного обучения. Требуются отли…
middle
удалённо
Data Scientist
IEK GROUP ищет Data Scientist для работы в удаленном режиме. Вы будете заниматься разработкой аналитических решений и сервисов для работы с данными, используя с…
middle
удалённо