Модуль 1 · Введение

Что такое LLM
и зачем это знать

Разбираемся без страха и без магии — что это такое, как работает, и почему понимание этого меняет то, как вы будете с этим работать

Большая языковая модель (LLM — Large Language Model) — это программа, обученная предсказывать следующий токен в тексте. Звучит просто, но за этим стоит кое-что неожиданное: из одной задачи «угадай следующее слово» вырастает способность рассуждать, писать код, анализировать документы и вести диалог.

Цель этого модуля — не дать вам стать ML-инженером. Цель — убрать «чёрный ящик» и дать рабочую модель того, как с этим взаимодействовать осознанно.

🧠

Как это работает

Токены, веса, инференс — базовые понятия без перегруза математикой

✅

Что умеет

Где LLM реально полезен в вашей работе и как это использовать

⚠️

Что не умеет

Галлюцинации, ограничения контекста, слепые зоны — и как с ними жить

    Время прохождения: 20–30 минут. В конце — короткий тест для закрепления. Можно проходить в своём темпе.
  

Раздел 2

Как работает LLM

От обучения до ответа — что происходит под капотом

LLM — это нейронная сеть с миллиардами параметров (чисел). Эти числа — результат обучения: модель видела огромные объёмы текста и настраивала параметры так, чтобы научиться предсказывать следующее слово.

    Представьте, что вы прочитали весь русскоязычный интернет, половину книг на планете и большую часть GitHub. После этого вы очень хорошо умеете угадывать, что идёт дальше в любом тексте. Примерно так и работает LLM — только вместо памяти это миллиарды настроенных чисел.
  

Когда вы пишете запрос, запускается инференс — модель, используя все эти параметры, предсказывает наиболее вероятный следующий токен, добавляет его к тексту, предсказывает следующий, и так до конца ответа.

💬

Ваш запрос

Текст разбивается на токены

→

⚙️

Инференс

Токены проходят через миллиарды параметров

→

🎲

Вероятности

Модель считает вероятность каждого следующего токена

→

📝

Генерация

Выбирается токен, процесс повторяется

    Важно понять: LLM не ищет информацию в базе данных и не думает «по-человечески». Он генерирует вероятностный ответ на основе паттернов из обучающих данных. Отсюда и его сила, и его слабости.
  

Современные модели дополнительно проходят этап RLHF (обучение с подкреплением от обратной связи людей) — это то, что делает их полезными и безопасными в диалоге, а не просто генераторами случайного текста.

🎓 Обучение (один раз)

Модель обучается на огромном корпусе текстов. Это занимает недели на тысячах GPU и стоит миллионы долларов. Вы получаете готовую модель.

⚡ Инференс (каждый ответ)

Когда вы пишете сообщение — это и есть инференс. Модель не обучается на вашем запросе, она просто отвечает на него.

Раздел 3

Токены и контекстное окно

Два понятия, которые объясняют большинство ограничений в работе с LLM

LLM не работает со словами напрямую — он работает с токенами. Токен — это кусок текста, обычно 2–4 символа для английского и немного больше для русского. Слово может быть одним токеном или несколькими.

🧪 Интерактив: посмотрите как текст разбивается на токены

Почему это важно? Потому что у каждой модели есть лимит токенов — то, что помещается в одном «разговоре». Это называется контекстное окно.

Контекстное окно модели

Всё, что видит модель в один момент — системный промпт, история диалога и текущий запрос. Попробуйте слайдер:

История: 40%

Системный промпт (~15%)

История диалога (40%)

Свободное место (45%)

Актуальные топ-модели на OpenRouter, апрель 2026 — по реальному трафику разработчиков:

Модель	Компания	Контекст	Заметки
MiMo-V2-Pro	Xiaomi	1M	#1 по трафику OpenRouter, 1T+ параметров, агентные задачи
Claude Opus 4.6 / Sonnet 4.6	Anthropic	1M	Лучший для кода и длинных рабочих задач, то что вы используете сейчас
GPT-5.4	OpenAI	1M+	Объединяет GPT и Codex, встроенный computer use
Gemini 3.1 Pro Preview	Google	1M	Мультимодальный: текст, картинки, видео, аудио
DeepSeek V3.2	DeepSeek	1M	~90% качества GPT-5.4 по цене в 50× дешевле
Grok 4.1 Fast	xAI	2M	Крупнейшее контекстное окно среди топ-моделей
Gemma 4 31B	Google (open)	256K	БЕСПЛАТНО · open-weight, Apache 2.0
NVIDIA Nemotron 3 Super	NVIDIA (open)	262K	БЕСПЛАТНО · 120B MoE, можно деплоить локально

💡 Практическое следствие

Контекст в 1M токенов — это ~750 000 слов, или примерно три романа. Но даже при таком размере: чем больше занято — тем хуже модель «помнит» начало. Следите за длиной диалогов в рабочих задачах.

Источник: OpenRouter real usage rankings, апрель 2026

Раздел 4

Что умеет и что нет

Честная карта возможностей — чтобы не разочаровываться и не недооценивать

Задача	Уровень	Комментарий
Написать / отредактировать текст	Отлично	Письма, документация, отчёты, описания задач — одна из лучших применений
Объяснить код или написать скрипт	Отлично	Особенно хорошо для Python, JS, bash. Работает даже без опыта программирования
Проанализировать документ / CSV	Отлично	Резюме, выявление паттернов, структурирование данных
Ответить на вопрос из области знаний	Хорошо*	*Нужна проверка: у модели есть дата среза знаний и она может ошибаться в деталях
Перевод и локализация	Отлично	Качественный перевод с сохранением тона и контекста
Точная математика / вычисления	Осторожно	Может ошибаться в сложных расчётах. Используйте инструменты (калькулятор, код)
Актуальные данные и события	Не умеет*	*Без веб-поиска — не знает что было вчера. Дата среза знаний фиксирована
Помнить прошлые разговоры	Не умеет	Каждый новый чат начинается с чистого листа (если нет встроенной памяти)
Самостоятельно действовать в системах	С инструментами	Через MCP и агентный режим — может. Без них — только текст

    Ключевой принцип: LLM — это мощный инструмент для работы с текстом и знаниями. Для всего, что требует точности, актуальности или действий — нужно либо проверять результат, либо подключать внешние инструменты.
  

Раздел 5

Галлюцинации — когда модель уверенно врёт

Самая известная проблема LLM — и что с ней делать на практике

Галлюцинация — это когда модель генерирует уверенный, убедительный, но неверный ответ. Она не «знает», что лжёт — она просто предсказывает наиболее вероятный следующий токен, и иногда эта вероятность ведёт к выдуманному факту.

Пример 1: Факты

Пример 2: Код

Пример 3: Ссылки

Пользователь

Когда была основана компания Stripe и кто её основатели?

LLM (с галлюцинацией)

Stripe была основана в 2009 году братьями Патриком и Джоном Коллисон. Компания изначально называлась /dev/payments и была запущена...

⚠️ Stripe основана в 2010, а не 2009. Рабочее название /dev/payments — спорный факт. Модель уверена, но ошибается в деталях.

Пользователь

Покажи как использовать метод .filterByStatus() в библиотеке axios

LLM (с галлюцинацией)

В axios есть удобный метод .filterByStatus() для фильтрации ответов:

axios.get('/api').filterByStatus(200)

⚠️ Такого метода в axios нет. Модель «придумала» несуществующий API и выдала его с примером кода. Новичок легко поверит.

Пользователь

Дай ссылку на официальную документацию MCP от Anthropic

LLM (с галлюцинацией)

Официальная документация MCP доступна по адресу: https://docs.anthropic.com/mcp/reference/v1/ — там описаны все методы и примеры интеграции...

⚠️ Конкретный URL выдуман. Модель знает что такая документация существует, но URL генерирует вероятностно — и ошибается.

❌ Когда галлюцинации опасны

Точные факты, числа, даты, ссылки, медицина, право, финансы. Код для продакшена без проверки. Несуществующие методы и библиотеки.

✅ Как снизить риск

Проверять факты из внешних источников. Просить модель указать неуверенность. Использовать RAG и инструменты поиска. Тестировать код перед использованием.

    Правило для работы: чем специфичнее факт (конкретная дата, число, URL, название метода) — тем выше вероятность галлюцинации. Используйте LLM для структуры и рассуждений, а конкретику всегда проверяйте.
  

Раздел 6

Подводные камни

Что важно знать, прежде чем доверить LLM рабочие задачи

01

Данные уходят к провайдеру

Всё, что вы отправляете в облачную модель (Claude, GPT-4, Gemini), проходит через серверы провайдера. Не отправляйте секреты, токены, персональные данные клиентов и конфиденциальные документы.

Для чувствительных данных — локальные модели или Enterprise-договор с NDA

02

Модель не помнит предыдущие разговоры

Каждая новая сессия — чистый лист. Если вы вчера объясняли контекст проекта, сегодня нужно объяснять снова. Это меняет подход: важна подготовка контекста, а не накопление «отношений» с моделью.

Держите готовый «контекстный блок» для частых задач — вставляйте в начало диалога

03

Уверенность ≠ правота

LLM не умеет говорить «я не знаю» так, как это делает человек. Он генерирует ответ даже тогда, когда правильного ответа в обучающих данных не было. Тон уверенный — содержание может быть неверным.

Просите модель явно указывать, в чём она неуверена: «отметь, где ты не уверен»

04

Устаревшие знания

У каждой модели есть дата среза обучающих данных. Claude Sonnet 4.5 — апрель 2024, GPT-4o — примерно то же. Всё, что вышло после — модель не знает, если нет веб-поиска.

Для актуальной информации используйте модели с веб-поиском или RAG

05

Деградация качества в длинных диалогах

По мере роста истории диалога модель всё меньше «внимания» уделяет ранним сообщениям. В очень длинных сессиях она может начать игнорировать инструкции из начала разговора.

Для сложных многоэтапных задач — начинайте новый чат с обновлённым контекстом

06

Эффект «да-да» — модель соглашается с вами

Если вы предложите неверное решение, LLM склонен соглашаться и «развивать» вашу идею. Он оптимизирован на полезность и плохо умеет говорить «нет, ты не прав».

Явно просите: «Найди слабые места в этом решении», «Что может пойти не так?»

Раздел 7

Проверка знаний

5 вопросов по пройденному материалу

1. Что такое «инференс» в контексте LLM?

A

Процесс обучения модели на новых данных

B

Генерация ответа моделью на конкретный запрос пользователя

C

Метод проверки правильности ответа модели

D

Хранение истории диалогов между сессиями

2. Вы просите LLM найти официальную документацию к библиотеке. Модель уверенно даёт ссылку. Что нужно сделать?

A

Использовать ссылку сразу — модель знает актуальные URL

B

Проверить ссылку перед использованием — URL могут быть выдуманы

C

Попросить модель проверить себя — она скорректирует ответ

D

Спросить другую модель для подтверждения

3. Почему не стоит отправлять в облачный LLM (Claude, GPT) секреты и токены доступа?

A

Модель их запомнит и будет использовать в других чатах

B

Запросы проходят через серверы провайдера, и конфиденциальные данные могут быть скомпрометированы

C

Модель откажется отвечать при наличии секретов в тексте

D

Это ухудшает качество ответа

4. Что произойдёт если история диалога займёт большую часть контекстного окна?

A

Чат автоматически сохранится и начнётся заново

B

Модель попросит вас удалить часть истории

C

Качество ответов может снижаться: модель хуже учитывает ранние части разговора

D

Ничего не изменится — контекст безлимитный

5. Вы хотите проверить решение архитектурной задачи с помощью LLM. Какой промпт даст лучший результат?

A

«Посмотри — хорошее решение?»

B

«Оцени это решение и подтверди что оно правильное»

C

«Найди слабые места, риски и альтернативы для этого решения»

D

«Перепиши решение лучше»

Что такое LLMи зачем это знать

Как работает LLM

Токены и контекстное окно

Что умеет и что нет

Галлюцинации — когда модель уверенно врёт

Подводные камни

Проверка знаний

Что такое LLM
и зачем это знать