AI Research Engineer (Reinforcement Learning)
Tether ищет AI-инженера для работы над обучением с подкреплением. Вы будете разрабатывать RL-алгоритмы, проводить эксперименты и интегрировать агентов в продакшн. Требуется опыт с PyTorch, GRPO и публикации на A* конференциях. Работа полностью удаленная.
Зарплата не указана — оценили по рынку
На основе 1477 похожих вакансий за 90 дней.
Что предстоит делать
Штаб-квартира: El Salvador URL: https://careers.tether.io/ Почему стоит присоединиться к нам? Наша команда — это глобальный центр талантов, работающий удаленно из всех уголков мира. Если вы увлечены идеей оставить след в сфере fintech, это ваша возможность сотрудничать с одними из самых ярких умов, раздвигая границы и устанавливая новые стандарты. Мы быстро выросли, остались гибкими и закрепили за собой место лидера в индустрии. Если у вас отличные навыки общения на английском языке и вы готовы внести вклад в самую инновационную платформу на планете, Tether — это место для вас. Готовы ли вы стать частью будущего? О вакансии Будучи членом команды по разработке AI-моделей, вы будете стимулировать инновации в подходах к обучению с подкреплением для продвинутых моделей. Ваша работа будет оптимизировать принятие решений и адаптивное поведение, чтобы обеспечить повышенный интеллект, улучшенную производительность и возможности, специфичные для предметной области, для решения реальных задач. Вы будете работать с широким спектром систем, включая ресурсоэффективные модели, предназначенные для ограниченных аппаратных сред, и сложные мультимодальные архитектуры, интегрирующие такие данные, как текст, изображения и аудио. Мы ожидаем, что у вас есть глубокие знания в области проектирования систем обучения с подкреплением и солидный опыт работы с продвинутыми архитектурами моделей. Вы будете применять практический, исследовательский подход к разработке, тестированию и внедрению новых алгоритмов обучения с подкреплением и фреймворков для обучения. В ваши обязанности входит курирование специализированных сред симуляции и обучающих наборов данных, укрепление базовой производительности политики, а также выявление и устранение узких мест в процессе обучения с подкреплением. Конечная цель — раскрыть превосходную, адаптированную к предметной области производительность AI и расширить границы того, чего эти модели могут достичь в динамичных реальных средах.
- Разрабатывать и внедрять передовые алгоритмы обучения с подкреплением, предназначенные для оптимизации процессов принятия решений как в симулированных, так и в реальных условиях. Устанавливать четкие целевые показатели производительности, такие как максимизация вознаграждения и стабильность политики.
- Создавать, запускать и контролировать контролируемые эксперименты по обучению с подкреплением. Отслеживать ключевые показатели эффективности, документируя итеративные результаты и сравнивая результаты с установленными эталонами.
- Выявлять и курировать высококачественные среды симуляции и обучающие наборы данных, адаптированные к конкретным предметным задачам. Устанавливать измеримые критерии, чтобы гарантировать, что отбор и подготовка этих ресурсов значительно улучшают процесс обучения и общую производительность модели.
- Систематически отлаживать и оптимизировать конвейер обучения с подкреплением, анализируя как вычислительную эффективность, так и показатели производительности обучения. Решать такие проблемы, как шум сигнала вознаграждения, стратегия исследования и расхождение политики, для улучшения сходимости и стабильности.
- Сотрудничать с кросс-функциональными командами для интеграции агентов обучения с подкреплением в производственные системы. Определять четкие показатели успеха, такие как улучшение производительности в реальных условиях и устойчивость при различных условиях, а также обеспечивать непрерывный мониторинг и итеративные доработки для устойчивой адаптации к предметной области.
- Требования к кандидату
- Степень в области компьютерных наук или смежной области. Желательно PhD в области NLP, машинного обучения или смежной области, дополненный солидным опытом в AI R&D (с хорошими публикациями на конференциях уровня A*).
- Обязателен подтвержденный опыт работы с крупномасштабными экспериментами по обучению с подкреплением, включая методы онлайн RL, такие как Group Relative Policy Optimization (GRPO). Ваш вклад должен привести к измеримым улучшениям в принятии решений в конкретной предметной области и общей производительности политики.
- Требуется глубокое понимание алгоритмов обучения с подкреплением, включая современные методы онлайн RL и другие подходы градиентной оптимизации, такие как policy gradients, actor-critic и GRPO. Ваш опыт должен подчеркивать улучшение стабильности политики, исследования и эффективности выборки в сложных динамических средах.
- Обязательно наличие сильных навыков работы с PyTorch и соответствующими фреймворками обучения с подкреплением. Ожидается практический опыт разработки конвейеров RL — от симуляции и онлайн-обучения до оценки после обучения и развертывания решений на основе RL в производственных средах.
- Подтвержденная способность применять эмпирические исследования для преодоления проблем обучения с подкреплением, таких как неэффективность выборки, компромиссы между исследованием и эксплуатацией, а также нестабильность обучения. Вы должны уметь разрабатывать надежные фреймворки для оценки и итеративно внедрять алгоритмические инновации, чтобы постоянно расширять границы производительности RL-агентов.
-
- Важная информация для кандидатов
- Мошенничество при найме становится все более распространенным. Чтобы защитить себя, пожалуйста, учитывайте следующее при подаче заявок на вакансии:
- Подавайте заявки только через наши официальные каналы. Мы не используем сторонние платформы или агентства для найма, если это не указано явно. Все открытые вакансии перечислены на нашей официальной странице карьеры: https://tether.recruitee.com/
- Проверяйте личность рекрутера. Все наши рекрутеры имеют подтвержденные профили в LinkedIn. Если вы сомневаетесь, вы можете подтвердить их личность, проверив их профиль или связавшись с нами через наш сайт.
- Будьте осторожны с необычными методами связи. Мы не проводим собеседования через WhatsApp, Telegram или SMS. Вся коммуникация осуществляется через официальные корпоративные email-адреса и платформы.
- Дважды проверяйте адреса электронной почты. Вся коммуникация от нас будет приходить с адресов, заканчивающихся на @tether.to или @tether.io
- Мы никогда не будем запрашивать платежи или финансовые данные. Если кто-то просит личную финансовую информацию или оплату на любом этапе процесса найма, это мошенничество. Пожалуйста, немедленно сообщите об этом.
- Для подачи заявки: https://weworkremotely.com/remote-jobs/tether-ai-research-engineer
Стек и инструменты
Подходит ли вам эта вакансия?
Зарегистрируйтесь и загрузите резюме — посчитаем % совпадения с этой вакансией, подсветим сильные стороны и что стоит подтянуть
Похожие вакансии
6 вакансий
Инженер R&D (AI-агенты)
~1 458 600 – 2 154 750 ₸ оценка
Ищем инженера R&D для разработки и прототипирования агентных ИИ-решений в страховой сфере. Требуется глубокий опыт в генеративном ИИ, умение создавать агентов с нуля на Python, знание современных подходов (CoT, ReAct, RAG). Предлагаем работу в топ-5 страховых компаний РФ, ДМС, обучение и бонусы.
Embedded разработчик
~1 458 600 – 2 154 750 ₸ оценка
Ищем опытного Python-разработчика для работы над embedded-системами на Linux. Нужно разрабатывать сервисы удалённого управления, сопровождать ПО, участвовать в troubleshooting и развитии продукта. Предлагаем удалённую работу с редкими командировками в Москву, ДМС и обучение за счёт компании.
Автор курса по LLM-разработке
~1 458 600 – 2 154 750 ₸ оценка
Создание практического курса по LLM-разработке от основ до продакшн-внедрения. Нужен автор с реальным опытом внедрения LLM-приложений, RAG и AI-агентов. Предлагается удалённая проектная работа.
Backend Software Engineer
~1 458 600 – 2 154 750 ₸ оценка
Ищем опытного бэкенд-разработчика для создания и поддержки хостинг и VPN сервисов. Требуется 5+ лет опыта, отличное знание Python (Django/DRF) и Go, опыт с платежными системами и API. Предлагаем удаленную работу, полную занятость и конкурентную оплату.
Backend разработчик Python/Java
Разработка и поддержка микросервисных интеграционных систем для банковского сектора. Требуется опыт от 5 лет в Python или Java, знание архитектурных паттернов, контейнеризации и брокеров сообщений. Компания предлагает удаленную работу, карьерный рост и участие в масштабных проектах.
Python разработчик
~1 458 600 – 2 154 750 ₸ оценка
Ищем опытного Python-разработчика для создания сервисов на базе больших языковых моделей и AI-агентов. Требуется глубокий опыт в Python, AI/ML и работе с LLM. Компания предлагает стабильную занятость, соцпакет и возможности для профессионального роста.