У нас вы можете посмотреть бесплатно [Open DMQA Seminar] RLHF-Preference-based Reinforcement Learning или скачать в максимальном доступном качестве, которое было загружено на ютуб. Для скачивания выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса savevideohd.ru
RLHF(reinforcement from human feedback)란 인간의 피드백만을 가지고 강화학습 에이전트를 학습하는 분야를 가리키며, 도메인 지식을 기반한 구체적인 보상 함수 설계없이 복잡한 태스크를 수행할 수 있음을 시사한다. 금일 세미나에서는 RLHF의 다양한 분야 중 '이진 비교'에 기반한 Preference-based Reinforcement Learning (PbRL)에 대해 소개한다. 또한 PbRL에서 존재하는 문제점은 무엇이며 이러한 문제점들을 해결한 다양한 알고리즘들에 대해 살펴보고자 한다. 참고 자료: [1] Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30. [2] Lee, K., Smith, L., & Abbeel, P. (2021). Pebble: Feedback-efficient interactive reinforcement learning via relabeling experience and unsupervised pre-training. arXiv preprint arXiv:2106.05091. [3] Park, J., Seo, Y., Shin, J., Lee, H., Abbeel, P., & Lee, K. (2021, October). SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning. In International Conference on Learning Representations. [4] Liang, X., Shu, K., Lee, K., & Abbeel, P. (2021, October). Reward Uncertainty for Exploration in Preference-based Reinforcement Learning. In International Conference on Learning Representations.