Перейти к содержимому
T
Tether
2

AI Research Engineer (Reinforcement Learning)

Tether ищет AI-инженера для работы над обучением с подкреплением. Вы будете разрабатывать RL-алгоритмы, проводить эксперименты и интегрировать агентов в продакшн. Требуется опыт с PyTorch, GRPO и публикации на A* конференциях. Работа полностью удаленная.

senior удалённо ~3 153 797 – 4 022 700 ₸
Вакансия опубликована 62 дня назад. Может быть уже неактуальна — рекомендуем уточнить статус у работодателя перед откликом.
Языки: English · Advanced
salary intelligence

Зарплата не указана — оценили по рынку

На основе 1477 похожих вакансий за 90 дней.

оценка p25–p75
3 153 797 – 4 022 700 ₸
медиана: 3 491 704 ₸
Хотите увидеть распределение по грейдам и городам? Зарплаты Python Калькулятор зарплат
Вакансии в Telegram-канале
Свежие вакансии Каждый день
Подписаться
??%
Match Score
Войдите и создайте резюме
Войти
описание

Что предстоит делать

Штаб-квартира: El Salvador URL: https://careers.tether.io/ Почему стоит присоединиться к нам? Наша команда — это глобальный центр талантов, работающий удаленно из всех уголков мира. Если вы увлечены идеей оставить след в сфере fintech, это ваша возможность сотрудничать с одними из самых ярких умов, раздвигая границы и устанавливая новые стандарты. Мы быстро выросли, остались гибкими и закрепили за собой место лидера в индустрии. Если у вас отличные навыки общения на английском языке и вы готовы внести вклад в самую инновационную платформу на планете, Tether — это место для вас. Готовы ли вы стать частью будущего?   О вакансии Будучи членом команды по разработке AI-моделей, вы будете стимулировать инновации в подходах к обучению с подкреплением для продвинутых моделей. Ваша работа будет оптимизировать принятие решений и адаптивное поведение, чтобы обеспечить повышенный интеллект, улучшенную производительность и возможности, специфичные для предметной области, для решения реальных задач. Вы будете работать с широким спектром систем, включая ресурсоэффективные модели, предназначенные для ограниченных аппаратных сред, и сложные мультимодальные архитектуры, интегрирующие такие данные, как текст, изображения и аудио. Мы ожидаем, что у вас есть глубокие знания в области проектирования систем обучения с подкреплением и солидный опыт работы с продвинутыми архитектурами моделей. Вы будете применять практический, исследовательский подход к разработке, тестированию и внедрению новых алгоритмов обучения с подкреплением и фреймворков для обучения. В ваши обязанности входит курирование специализированных сред симуляции и обучающих наборов данных, укрепление базовой производительности политики, а также выявление и устранение узких мест в процессе обучения с подкреплением. Конечная цель — раскрыть превосходную, адаптированную к предметной области производительность AI и расширить границы того, чего эти модели могут достичь в динамичных реальных средах.  

  • Разрабатывать и внедрять передовые алгоритмы обучения с подкреплением, предназначенные для оптимизации процессов принятия решений как в симулированных, так и в реальных условиях. Устанавливать четкие целевые показатели производительности, такие как максимизация вознаграждения и стабильность политики.
  • Создавать, запускать и контролировать контролируемые эксперименты по обучению с подкреплением. Отслеживать ключевые показатели эффективности, документируя итеративные результаты и сравнивая результаты с установленными эталонами.
  • Выявлять и курировать высококачественные среды симуляции и обучающие наборы данных, адаптированные к конкретным предметным задачам. Устанавливать измеримые критерии, чтобы гарантировать, что отбор и подготовка этих ресурсов значительно улучшают процесс обучения и общую производительность модели.
  • Систематически отлаживать и оптимизировать конвейер обучения с подкреплением, анализируя как вычислительную эффективность, так и показатели производительности обучения. Решать такие проблемы, как шум сигнала вознаграждения, стратегия исследования и расхождение политики, для улучшения сходимости и стабильности.
  • Сотрудничать с кросс-функциональными командами для интеграции агентов обучения с подкреплением в производственные системы. Определять четкие показатели успеха, такие как улучшение производительности в реальных условиях и устойчивость при различных условиях, а также обеспечивать непрерывный мониторинг и итеративные доработки для устойчивой адаптации к предметной области.
  • Требования к кандидату
  • Степень в области компьютерных наук или смежной области. Желательно PhD в области NLP, машинного обучения или смежной области, дополненный солидным опытом в AI R&D (с хорошими публикациями на конференциях уровня A*).
  • Обязателен подтвержденный опыт работы с крупномасштабными экспериментами по обучению с подкреплением, включая методы онлайн RL, такие как Group Relative Policy Optimization (GRPO). Ваш вклад должен привести к измеримым улучшениям в принятии решений в конкретной предметной области и общей производительности политики.
  • Требуется глубокое понимание алгоритмов обучения с подкреплением, включая современные методы онлайн RL и другие подходы градиентной оптимизации, такие как policy gradients, actor-critic и GRPO. Ваш опыт должен подчеркивать улучшение стабильности политики, исследования и эффективности выборки в сложных динамических средах.
  • Обязательно наличие сильных навыков работы с PyTorch и соответствующими фреймворками обучения с подкреплением. Ожидается практический опыт разработки конвейеров RL — от симуляции и онлайн-обучения до оценки после обучения и развертывания решений на основе RL в производственных средах.
  • Подтвержденная способность применять эмпирические исследования для преодоления проблем обучения с подкреплением, таких как неэффективность выборки, компромиссы между исследованием и эксплуатацией, а также нестабильность обучения. Вы должны уметь разрабатывать надежные фреймворки для оценки и итеративно внедрять алгоритмические инновации, чтобы постоянно расширять границы производительности RL-агентов.
  •  
  • Важная информация для кандидатов
  • Мошенничество при найме становится все более распространенным. Чтобы защитить себя, пожалуйста, учитывайте следующее при подаче заявок на вакансии:
  • Подавайте заявки только через наши официальные каналы. Мы не используем сторонние платформы или агентства для найма, если это не указано явно. Все открытые вакансии перечислены на нашей официальной странице карьеры: https://tether.recruitee.com/
  • Проверяйте личность рекрутера. Все наши рекрутеры имеют подтвержденные профили в LinkedIn. Если вы сомневаетесь, вы можете подтвердить их личность, проверив их профиль или связавшись с нами через наш сайт.
  • Будьте осторожны с необычными методами связи. Мы не проводим собеседования через WhatsApp, Telegram или SMS. Вся коммуникация осуществляется через официальные корпоративные email-адреса и платформы.
  • Дважды проверяйте адреса электронной почты. Вся коммуникация от нас будет приходить с адресов, заканчивающихся на @tether.to или @tether.io
  • Мы никогда не будем запрашивать платежи или финансовые данные. Если кто-то просит личную финансовую информацию или оплату на любом этапе процесса найма, это мошенничество. Пожалуйста, немедленно сообщите об этом.
  • Для подачи заявки: https://weworkremotely.com/remote-jobs/tether-ai-research-engineer
навыки

Стек и инструменты

Подходит ли вам эта вакансия?

Зарегистрируйтесь и загрузите резюме — посчитаем % совпадения с этой вакансией, подсветим сильные стороны и что стоит подтянуть

Создать аккаунт PDF-парсинг резюме за 2 минуты

Похожие вакансии

6 вакансий
Ингосстрах
И
Ингосстрах
1 д. назад

Инженер R&D (AI-агенты)

~1 458 600 – 2 154 750 ₸ оценка

Ищем инженера R&D для разработки и прототипирования агентных ИИ-решений в страховой сфере. Требуется глубокий опыт в генеративном ИИ, умение создавать агентов с нуля на Python, знание современных подходов (CoT, ReAct, RAG). Предлагаем работу в топ-5 страховых компаний РФ, ДМС, обучение и бонусы.

Python AI LLM +7
senior удал. hh
RDP
R
RDP
1 д. назад

Embedded разработчик

~1 458 600 – 2 154 750 ₸ оценка

Ищем опытного Python-разработчика для работы над embedded-системами на Linux. Нужно разрабатывать сервисы удалённого управления, сопровождать ПО, участвовать в troubleshooting и развитии продукта. Предлагаем удалённую работу с редкими командировками в Москву, ДМС и обучение за счёт компании.

Python Linux Embedded +10
senior удал. hh
Хекслет
Х
Хекслет
1 д. назад

Автор курса по LLM-разработке

~1 458 600 – 2 154 750 ₸ оценка

Создание практического курса по LLM-разработке от основ до продакшн-внедрения. Нужен автор с реальным опытом внедрения LLM-приложений, RAG и AI-агентов. Предлагается удалённая проектная работа.

LLM RAG AI-агенты +4
senior удал. hh
А
АИМОР
1 д. назад

Backend Software Engineer

~1 458 600 – 2 154 750 ₸ оценка

Ищем опытного бэкенд-разработчика для создания и поддержки хостинг и VPN сервисов. Требуется 5+ лет опыта, отличное знание Python (Django/DRF) и Go, опыт с платежными системами и API. Предлагаем удаленную работу, полную занятость и конкурентную оплату.

Python Django DRF +10
senior удал. hh
Bell Integrator
B
Bell Integrator
2 д. назад

Backend разработчик Python/Java

Разработка и поддержка микросервисных интеграционных систем для банковского сектора. Требуется опыт от 5 лет в Python или Java, знание архитектурных паттернов, контейнеризации и брокеров сообщений. Компания предлагает удаленную работу, карьерный рост и участие в масштабных проектах.

Python Java Backend +11
senior удал. hh
АЙ-ТЕКО
А
АЙ-ТЕКО
2 д. назад

Python разработчик

~1 458 600 – 2 154 750 ₸ оценка

Ищем опытного Python-разработчика для создания сервисов на базе больших языковых моделей и AI-агентов. Требуется глубокий опыт в Python, AI/ML и работе с LLM. Компания предлагает стабильную занятость, соцпакет и возможности для профессионального роста.

Python LLM AI +18
senior удал. hh