Модуль 1 · Введение

Что такое LLM
и зачем это знать

Разбираемся без страха и без магии — что это такое, как работает, и почему понимание этого меняет то, как вы будете с этим работать

Большая языковая модель (LLM — Large Language Model) — это программа, обученная предсказывать следующий токен в тексте. Звучит просто, но за этим стоит кое-что неожиданное: из одной задачи «угадай следующее слово» вырастает способность рассуждать, писать код, анализировать документы и вести диалог.

Цель этого модуля — не дать вам стать ML-инженером. Цель — убрать «чёрный ящик» и дать рабочую модель того, как с этим взаимодействовать осознанно.

🧠
Как это работает
Токены, веса, инференс — базовые понятия без перегруза математикой
Что умеет
Где LLM реально полезен в вашей работе и как это использовать
⚠️
Что не умеет
Галлюцинации, ограничения контекста, слепые зоны — и как с ними жить
Время прохождения: 20–30 минут. В конце — короткий тест для закрепления. Можно проходить в своём темпе.
Раздел 2

Как работает LLM

От обучения до ответа — что происходит под капотом

LLM — это нейронная сеть с миллиардами параметров (чисел). Эти числа — результат обучения: модель видела огромные объёмы текста и настраивала параметры так, чтобы научиться предсказывать следующее слово.

Представьте, что вы прочитали весь русскоязычный интернет, половину книг на планете и большую часть GitHub. После этого вы очень хорошо умеете угадывать, что идёт дальше в любом тексте. Примерно так и работает LLM — только вместо памяти это миллиарды настроенных чисел.

Когда вы пишете запрос, запускается инференс — модель, используя все эти параметры, предсказывает наиболее вероятный следующий токен, добавляет его к тексту, предсказывает следующий, и так до конца ответа.

💬
Ваш запрос
Текст разбивается на токены
⚙️
Инференс
Токены проходят через миллиарды параметров
🎲
Вероятности
Модель считает вероятность каждого следующего токена
📝
Генерация
Выбирается токен, процесс повторяется
Важно понять: LLM не ищет информацию в базе данных и не думает «по-человечески». Он генерирует вероятностный ответ на основе паттернов из обучающих данных. Отсюда и его сила, и его слабости.

Современные модели дополнительно проходят этап RLHF (обучение с подкреплением от обратной связи людей) — это то, что делает их полезными и безопасными в диалоге, а не просто генераторами случайного текста.

🎓 Обучение (один раз)
Модель обучается на огромном корпусе текстов. Это занимает недели на тысячах GPU и стоит миллионы долларов. Вы получаете готовую модель.
⚡ Инференс (каждый ответ)
Когда вы пишете сообщение — это и есть инференс. Модель не обучается на вашем запросе, она просто отвечает на него.
Раздел 3

Токены и контекстное окно

Два понятия, которые объясняют большинство ограничений в работе с LLM

LLM не работает со словами напрямую — он работает с токенами. Токен — это кусок текста, обычно 2–4 символа для английского и немного больше для русского. Слово может быть одним токеном или несколькими.

🧪 Интерактив: посмотрите как текст разбивается на токены

Почему это важно? Потому что у каждой модели есть лимит токенов — то, что помещается в одном «разговоре». Это называется контекстное окно.

Контекстное окно модели

Всё, что видит модель в один момент — системный промпт, история диалога и текущий запрос. Попробуйте слайдер:

История: 40%
Системный промпт (~15%)
История диалога (40%)
Свободное место (45%)

Актуальные топ-модели на OpenRouter, апрель 2026 — по реальному трафику разработчиков:

Модель Компания Контекст Заметки
MiMo-V2-Pro Xiaomi 1M #1 по трафику OpenRouter, 1T+ параметров, агентные задачи
Claude Opus 4.6 / Sonnet 4.6 Anthropic 1M Лучший для кода и длинных рабочих задач, то что вы используете сейчас
GPT-5.4 OpenAI 1M+ Объединяет GPT и Codex, встроенный computer use
Gemini 3.1 Pro Preview Google 1M Мультимодальный: текст, картинки, видео, аудио
DeepSeek V3.2 DeepSeek 1M ~90% качества GPT-5.4 по цене в 50× дешевле
Grok 4.1 Fast xAI 2M Крупнейшее контекстное окно среди топ-моделей
Gemma 4 31B Google (open) 256K БЕСПЛАТНО · open-weight, Apache 2.0
NVIDIA Nemotron 3 Super NVIDIA (open) 262K БЕСПЛАТНО · 120B MoE, можно деплоить локально
💡 Практическое следствие
Контекст в 1M токенов — это ~750 000 слов, или примерно три романа. Но даже при таком размере: чем больше занято — тем хуже модель «помнит» начало. Следите за длиной диалогов в рабочих задачах.
Источник: OpenRouter real usage rankings, апрель 2026
Раздел 4

Что умеет и что нет

Честная карта возможностей — чтобы не разочаровываться и не недооценивать
Задача Уровень Комментарий
Написать / отредактировать текст Отлично Письма, документация, отчёты, описания задач — одна из лучших применений
Объяснить код или написать скрипт Отлично Особенно хорошо для Python, JS, bash. Работает даже без опыта программирования
Проанализировать документ / CSV Отлично Резюме, выявление паттернов, структурирование данных
Ответить на вопрос из области знаний Хорошо* *Нужна проверка: у модели есть дата среза знаний и она может ошибаться в деталях
Перевод и локализация Отлично Качественный перевод с сохранением тона и контекста
Точная математика / вычисления Осторожно Может ошибаться в сложных расчётах. Используйте инструменты (калькулятор, код)
Актуальные данные и события Не умеет* *Без веб-поиска — не знает что было вчера. Дата среза знаний фиксирована
Помнить прошлые разговоры Не умеет Каждый новый чат начинается с чистого листа (если нет встроенной памяти)
Самостоятельно действовать в системах С инструментами Через MCP и агентный режим — может. Без них — только текст
Ключевой принцип: LLM — это мощный инструмент для работы с текстом и знаниями. Для всего, что требует точности, актуальности или действий — нужно либо проверять результат, либо подключать внешние инструменты.
Раздел 5

Галлюцинации — когда модель уверенно врёт

Самая известная проблема LLM — и что с ней делать на практике

Галлюцинация — это когда модель генерирует уверенный, убедительный, но неверный ответ. Она не «знает», что лжёт — она просто предсказывает наиболее вероятный следующий токен, и иногда эта вероятность ведёт к выдуманному факту.

Пример 1: Факты
Пример 2: Код
Пример 3: Ссылки
Пользователь
Когда была основана компания Stripe и кто её основатели?
LLM (с галлюцинацией)
Stripe была основана в 2009 году братьями Патриком и Джоном Коллисон. Компания изначально называлась /dev/payments и была запущена...
⚠️ Stripe основана в 2010, а не 2009. Рабочее название /dev/payments — спорный факт. Модель уверена, но ошибается в деталях.
Пользователь
Покажи как использовать метод .filterByStatus() в библиотеке axios
LLM (с галлюцинацией)
В axios есть удобный метод .filterByStatus() для фильтрации ответов:

axios.get('/api').filterByStatus(200)
⚠️ Такого метода в axios нет. Модель «придумала» несуществующий API и выдала его с примером кода. Новичок легко поверит.
Пользователь
Дай ссылку на официальную документацию MCP от Anthropic
LLM (с галлюцинацией)
Официальная документация MCP доступна по адресу: https://docs.anthropic.com/mcp/reference/v1/ — там описаны все методы и примеры интеграции...
⚠️ Конкретный URL выдуман. Модель знает что такая документация существует, но URL генерирует вероятностно — и ошибается.
❌ Когда галлюцинации опасны
Точные факты, числа, даты, ссылки, медицина, право, финансы. Код для продакшена без проверки. Несуществующие методы и библиотеки.
✅ Как снизить риск
Проверять факты из внешних источников. Просить модель указать неуверенность. Использовать RAG и инструменты поиска. Тестировать код перед использованием.
Правило для работы: чем специфичнее факт (конкретная дата, число, URL, название метода) — тем выше вероятность галлюцинации. Используйте LLM для структуры и рассуждений, а конкретику всегда проверяйте.
Раздел 6

Подводные камни

Что важно знать, прежде чем доверить LLM рабочие задачи
01
Данные уходят к провайдеру
Всё, что вы отправляете в облачную модель (Claude, GPT-4, Gemini), проходит через серверы провайдера. Не отправляйте секреты, токены, персональные данные клиентов и конфиденциальные документы.
Для чувствительных данных — локальные модели или Enterprise-договор с NDA
02
Модель не помнит предыдущие разговоры
Каждая новая сессия — чистый лист. Если вы вчера объясняли контекст проекта, сегодня нужно объяснять снова. Это меняет подход: важна подготовка контекста, а не накопление «отношений» с моделью.
Держите готовый «контекстный блок» для частых задач — вставляйте в начало диалога
03
Уверенность ≠ правота
LLM не умеет говорить «я не знаю» так, как это делает человек. Он генерирует ответ даже тогда, когда правильного ответа в обучающих данных не было. Тон уверенный — содержание может быть неверным.
Просите модель явно указывать, в чём она неуверена: «отметь, где ты не уверен»
04
Устаревшие знания
У каждой модели есть дата среза обучающих данных. Claude Sonnet 4.5 — апрель 2024, GPT-4o — примерно то же. Всё, что вышло после — модель не знает, если нет веб-поиска.
Для актуальной информации используйте модели с веб-поиском или RAG
05
Деградация качества в длинных диалогах
По мере роста истории диалога модель всё меньше «внимания» уделяет ранним сообщениям. В очень длинных сессиях она может начать игнорировать инструкции из начала разговора.
Для сложных многоэтапных задач — начинайте новый чат с обновлённым контекстом
06
Эффект «да-да» — модель соглашается с вами
Если вы предложите неверное решение, LLM склонен соглашаться и «развивать» вашу идею. Он оптимизирован на полезность и плохо умеет говорить «нет, ты не прав».
Явно просите: «Найди слабые места в этом решении», «Что может пойти не так?»
Раздел 7

Проверка знаний

5 вопросов по пройденному материалу
1. Что такое «инференс» в контексте LLM?
A
Процесс обучения модели на новых данных
B
Генерация ответа моделью на конкретный запрос пользователя
C
Метод проверки правильности ответа модели
D
Хранение истории диалогов между сессиями
2. Вы просите LLM найти официальную документацию к библиотеке. Модель уверенно даёт ссылку. Что нужно сделать?
A
Использовать ссылку сразу — модель знает актуальные URL
B
Проверить ссылку перед использованием — URL могут быть выдуманы
C
Попросить модель проверить себя — она скорректирует ответ
D
Спросить другую модель для подтверждения
3. Почему не стоит отправлять в облачный LLM (Claude, GPT) секреты и токены доступа?
A
Модель их запомнит и будет использовать в других чатах
B
Запросы проходят через серверы провайдера, и конфиденциальные данные могут быть скомпрометированы
C
Модель откажется отвечать при наличии секретов в тексте
D
Это ухудшает качество ответа
4. Что произойдёт если история диалога займёт большую часть контекстного окна?
A
Чат автоматически сохранится и начнётся заново
B
Модель попросит вас удалить часть истории
C
Качество ответов может снижаться: модель хуже учитывает ранние части разговора
D
Ничего не изменится — контекст безлимитный
5. Вы хотите проверить решение архитектурной задачи с помощью LLM. Какой промпт даст лучший результат?
A
«Посмотри — хорошее решение?»
B
«Оцени это решение и подтверди что оно правильное»
C
«Найди слабые места, риски и альтернативы для этого решения»
D
«Перепиши решение лучше»