СБЕР

14 1 мес. назад

Инженер по оптимизации CUDA/Triton для LLM

Вакансия для инженера с опытом в low-level GPU программировании. Основные задачи включают оптимизацию архитектуры под GPU и взаимодействие с ML-инженерами. Предлагаем удаленную работу, годовую премию и возможности для профессионального роста.

senior удалённо

Тип занятости

full-time

Опубликовано

5 декабря 2025

Языки

English: Pre-Intermediate

Вакансии в Telegram-канале

Свежие вакансии Каждый день

описание

Мы создаём самые сильные языковые модели в России и одни из самых больших в мире такие как GigaChat3 Ultra. Создание таких систем требует оптимизации архитектуры под GPU и решение проблем с масштабированием на кластера из тысяч видеокарт. Все это - нетривиальные инженерные вызовы, решение которых закладывается в следующие поколения наших моделей. У нас вы будете работать с современным набором видеокарт: NVIDIA B200/H100. Наш стек полностью интегрирован с PyTorch/TensorRT/ONNX и активно использует Triton, CUDA, CUTLASS и кастомные ядра для оптимизации: FlashAttention, PagedAttention, DeepEP, и др. Среди наших достижений - реализация собственных ядер для распределённого обучения: асинхронный Expert & Tensor Parallel, а также Async Liger. Но хочется больше Цель - снизить latency и увеличить throughput, оптимизировать новые архитектуры, делать их обучение экономически выгодным по сравнению с классическими LLM & MoE

лидировать направление по разработке и оптимизации CUDA/Triton-ядер для LLM

тесно взаимодействовать с ML-инженерами и research-командами для понимания workload’ов и bottleneck’ов (например: multinode inference, sparse attention, mixture-of-experts, long-context inference)

участвовать в open-source инициативах (возможно — форки/патчи в Triton, upstream в PyTorch/TensorRT/SGLang)

Мы ожидаем, что вы:

имеете 5+ лет опыта в low-level GPU программировании (CUDA C++, PTX/SASS, shared memory/coalescing/warp-shuffle, async memcpy, stream management)

глубоко понимаете архитектуру NVIDIA GPU (Tensor Cores, warp execution, occupancy, L2 cache hierarchy) и умеете профилировать через Nsight

владеете Triton (или готовы освоить быстро) и понимаете его trade-offs vs чистая CUDA

есть опыт работы с современными фреймворками: PyTorch (custom ops, torch.compile), TensorRT (plugins), возможно — SGLang

имеете опыт управления технической командой (2+ лет как lead/tech lead)

Плюсом будет:

понимание сетевой составляющей обучений на больших кластерах (опыт работы с NVSHMEM, NCC)

знание CPU/GPU взаимодействия (pinned memory, zero-copy, unified memory pitfalls)

опыт оптимизации под конкретные HW — например, Hopper vs Ampere.

условия

удалённо по всей России

возможность оформления в аккредитованную IT-компанию

годовая премия по итогам работы

регулярный пересмотр зарплат

корпоративный спортзал и зоны отдыха

более 400 программ СберУниверситета для роста

программа адаптации и помощь руководителя на старте

крупнейшее DS&AI community – более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы

ДМС, льготное страхование для семьи, корпоративная пенсионная программа

ипотека для сотрудников по дисконтной программе

СберПрайм+ и скидки у партнёров

бонус за рекомендации в команду.

грейд

senior

формат

удалённо

зарплата

зп не указана

языки

English — Pre-Intermediate

Откликнуться В избранное

О компании

Сбер

Москва

Сбер — один из ведущих финансовых и технологических холдингов России, активно развивающий инновационные решения в области банковских услуг и цифровых...

вакансии

1 мес. назад

на сайте

Все вакансии компании

Match Score

Войдите, чтобы увидеть насколько вакансия вам подходит

Войти

Telegram WhatsApp

Похожие вакансии

6 вакансии

Алми Партнер

15 ч. назад

Backend-разработчик

Вам предстоит разрабатывать и оптимизировать бэкенд системы, участвовать в проектировании архитектуры и управлять ко…

senior удалённо

Social Links

1 д. назад

Старший Python разработчик (Сбор данных / Веб-скрейпинг)

Вакансия для старшего Python разработчика в компании Social Links, занимающейся сбором и анализом данных. Идеальный кандидат должен иметь оп…

senior удалённо

SSP SOFT

1 д. назад

Python разработчик

Вакансия для опытного Python разработчика с минимум 5-летним опытом. Вам предстоит разрабатывать backend-сервисы и REST …

senior удалённо

Lamoda Group

1 д. назад

Разработчик Python

Вакансия для разработчика Python с опытом от 5 лет. Ожидается знание SQL, проектирование архитектуры, р…

senior удалённо

Social Links

1 д. назад

Старший Backend разработчик (Python, Django, Go)

Вам предстоит развивать и поддерживать систему управления контейнерами, работать с Linux-серверами и Docker, а также участвовать в проектировании архитектуры. …

senior удалённо

ПУЛЬС АЙТИМ

1 д. назад

Инженер по тестированию Full Stack QA Python

Ищем опытного тестировщика с минимум 3-летним опытом ручного тестирования и 2-летним опытом написания ав…

senior удалённо

Откликнуться