Русские видео

Сейчас в тренде

Иностранные видео


Скачать с ютуб [Open DMQA Seminar] RLHF-Preference-based Reinforcement Learning в хорошем качестве

[Open DMQA Seminar] RLHF-Preference-based Reinforcement Learning 10 месяцев назад


Если кнопки скачивания не загрузились НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием, пожалуйста напишите в поддержку по адресу внизу страницы.
Спасибо за использование сервиса savevideohd.ru



[Open DMQA Seminar] RLHF-Preference-based Reinforcement Learning

RLHF(reinforcement from human feedback)란 인간의 피드백만을 가지고 강화학습 에이전트를 학습하는 분야를 가리키며, 도메인 지식을 기반한 구체적인 보상 함수 설계없이 복잡한 태스크를 수행할 수 있음을 시사한다. 금일 세미나에서는 RLHF의 다양한 분야 중 '이진 비교'에 기반한 Preference-based Reinforcement Learning (PbRL)에 대해 소개한다. 또한 PbRL에서 존재하는 문제점은 무엇이며 이러한 문제점들을 해결한 다양한 알고리즘들에 대해 살펴보고자 한다. 참고 자료: [1] Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30. [2] Lee, K., Smith, L., & Abbeel, P. (2021). Pebble: Feedback-efficient interactive reinforcement learning via relabeling experience and unsupervised pre-training. arXiv preprint arXiv:2106.05091. [3] Park, J., Seo, Y., Shin, J., Lee, H., Abbeel, P., & Lee, K. (2021, October). SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning. In International Conference on Learning Representations. [4] Liang, X., Shu, K., Lee, K., & Abbeel, P. (2021, October). Reward Uncertainty for Exploration in Preference-based Reinforcement Learning. In International Conference on Learning Representations.

Comments