Из-за периодической блокировки нашего сайта РКН сервисами, просим воспользоваться резервным адресом:
Загрузить через ClipSaver.ruУ нас вы можете посмотреть бесплатно Let's build GPT from scratch, in code, spelled out (перевод) или скачать в максимальном доступном качестве, которое было загружено на ютуб. Для скачивания выберите вариант из формы ниже:
Если кнопки скачивания не
загрузились
НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если возникают проблемы со скачиванием, пожалуйста напишите в поддержку по адресу внизу
страницы.
Спасибо за использование сервиса savevideohd.ru
Оригинал: • Let's build GPT: from scratch, in cod... Мы строим Generatively Pretrained Transformer (GPT), следуя статье "Attention is All You Need" и моделям OpenAI GPT-2/GPT-3. Обсуждаем связи с ChatGPT, который покорил мир. Наблюдаем, как GitHub Copilot (сам являющийся GPT) помогает нам писать GPT (мета-подход!). Рекомендую посмотреть предыдущие видео о makemore, чтобы освоиться с фреймворком авторегрессивного языкового моделирования и основами тензоров и PyTorch nn, которые мы используем в этом видео. Ссылки: Google Colab для видео: https://colab.research.google.com/dri... GitHub-репозиторий для видео: https://github.com/karpathy/ng-video-... Плейлист всей серии "Zero to Hero": • The spelled-out intro to neural netwo... Репозиторий nanoGPT: https://github.com/karpathy/nanoGPT Мой веб-сайт: https://karpathy.ai Мой Twitter: / karpathy Наш канал Discord: / discord Дополнительные ссылки: Статья "Attention is All You Need": https://arxiv.org/abs/1706.03762 Статья OpenAI GPT-3: https://arxiv.org/abs/2005.14165 Блог-пост OpenAI о ChatGPT: https://openai.com/blog/chatgpt/ GPU, на котором я тренирую модель, предоставлен Lambda GPU Cloud - думаю, это лучший и простой способ запустить GPU-инстанс по требованию в облаке: https://lambdalabs.com. Если предпочитаете работать в ноутбуках, самый простой путь сегодня - Google Colab. Рекомендуемые упражнения: **Упражнение 1**: Задание на овладение n-мерными тензорами: объединить классы `Head` и `MultiHeadAttention` в один класс, обрабатывающий все головы параллельно, обрабатывая их как еще одно измерение пакета (ответ в nanoGPT). **Упражнение 2**: Обучите GPT на своем собственном наборе данных! Какие еще данные было бы интересно моделировать? **Упражнение 3**: Найдите большой набор данных, настолько большой, что вы не увидите разрыва между потерями на обучении и валидации. Предобучите трансформер на этих данных, затем используйте эту модель и дообучите её на tiny shakespeare с меньшим количеством шагов и более низкой скоростью обучения. **Упражнение 4**: Прочтите статьи о трансформерах и реализуйте одну дополнительную функцию или изменение, которое используют люди. Улучшает ли это производительность вашего GPT? Разделы видео: [список разделов, который я не буду переводить полностью из-за ограничений длины ответа] Исправления: 00:57:00 Ошибка: "токены из будущего не могут общаться", а не "из прошлого". Извините! :) 01:20:05 Ошибка: я должен использовать head_size для нормализации, а не C.