Понимание LLM
В этом модуле мы проведем всесторонний обзор больших языковых моделей, таких как ChatGPT. Мы изучим, как эти модели работают, какая архитектура стоит за ними, и рассмотрим процесс их обучения. Для Applied AI инженера знать как работает LLM - всё равно что для электрика знать как работает электричество.
Steps
1. Смотрим видео легендарного ученого и лектора по LLM (LLM: The Movie)
Вопросы, к 1 лекции:
- Что такое большие языковые модели (LLM) и как они работают?
- Как с помощбю всех текстов интернета и кучи GPU мы получаем ChatGPT?
- Какую задачу решают LLM, подобные ChatGPT, на одном шаге? Что такое токен?
- Какие существуют примеры задач, которые LLM могут выполнять лучше всего?
E1. Более плотное кино, также без coding/math от февраля 2025 (LLM: The returning of the Jedi)
Вопросы, к 2 лекции:
- Как происходит процесс предобучения (pre-training) языковых моделей?
- Чем отличается этап предобучения от этапа тонкой настройки (fine-tuning)?
- Что такое обучение с подкреплением и как оно применимо к LLM?
- Какие методы используются для уменьшения галлюцинаций и улучшения точности ответов LLM?
- Как "умные" модели отличаются от традиционных LLM?
- Что такое "галлюцинации" и как их избежать?
Перенес сиквел сюда из-за хороших отзывов студентов.
Extra Steps
E2. Andrej Karpathy: How I use LLMs
E3. Как работает температура
- https://lena-voita.github.io/nlp_course/language_modeling.html + ctrl+F
Sampling with temperature
. Можно поиграться на интерактивной картинке.
E4. [матан] Интуиция за механизмами
Если вы хотите глубже погрузиться в то, как работают LLM и механизмы внутри - рекомендую посмотреть этот плейлист с отличными визуализациями и объяснениями. Смотрите начиная с "Краткое объяснение больших языковых моделей".
Длительность четырех видео: 1.5 часа, но скорее всего они займут у вас больше времени.
E5. Промпт-инъекции наглядно


Почему не на все workflow подействовала промпт-инъекция?
Версии:
- промышленные модели стараются создавать устойчивыми к промпт-инъекциям
- модели больше "внимания" обращают на системный промпт, чем на пользовательский
- слишком маленькие и глупые модели могут "не обратить внимание" на инъекцию
Также существуют промышленные инструменты для борьбы с промпт-инъекциями, например их детекция и блокировка на разных этапах workflow.
Now we know...
В данном модуле мы глубоко исследовали принципы работы крупных языковых моделей и их тренировки, включая этапы предобучения, обучения с учителем и обучения с подкреплением. Мы увидели, как эти модели становятся инструментами, способными не только генерировать текст, но и решать сложные задачи, используя различные стратегии мышления. Важно помнить, что, хотя технологии впечатляют, их использование требует внимательного подхода и критического мышления для достижения наилучших результатов.
Зная как LLM устроена под капотом, в следущем модуле мы изучим, как выглядит LLm с другой стороны - со стороны разработчика.
Exercises
- Из каких трех этапов обычно состоит процесс обучения LLM?
- Почему на один и тот же входной текст LLM может давать разные ответы?
- Может ли LLM отвечать на вопросы о вчерашних новостях?
- Что нужно для RLHF (Reinforcement Learning from Human Feedback)?
- Почему моделям тяжело считать количество букв "а" в слове?
Сложные:
- Что такое специальные токены?
- Почему мы затрудняемся сразу после pre-training делать RL? И что нам с этим помогает?
- Каково преимущество RLHF перед SFT?
- Что будет, если мы установим температуру равной 10?
Вы можете посмотреть другие фильмы Андрея про GPT-2 и токенизатор, если хотите обладать неверотно глубоким пониманием LLM. Для дизайна AI агентов это не обязательно.