Engram от deepseek: почему память важнее масштаба в архитектуре ИИ

и прибавьте «женщина» – получится эмбеддинг, максимально близкий к «королева».
Модель не «знает» этого в человеческом смысле, она просто оперирует векторами и находит ближайшую точку в пространстве.

Как трансформеры принимают решения

Современные языковые модели, построенные на архитектуре Transformer, непрерывно проделывают именно это: берут набор входных эмбеддингов и применяют к ним последовательность обученных линейных и нелинейных преобразований.

На каждом слое внимание (self-attention) решает, какие токены важны друг для друга, а матрицы весов вычисляют новые векторы, всё дальше уходя от исходного текста и всё ближе – к вероятностному распределению следующего токена.

Важно: модель не «ищет» информацию во внешнем хранилище. Она эмулирует поиск за счёт вычислений. Все факты, связи и ассоциации зашиты во внутренние веса, а обращение к ним – это сложная, но всё же чисто математическая функция от входного контекста.

Отсюда и фундаментальная проблема: если мы хотим, чтобы модель «помнила» больше, приходится либо:
- раздувать количество параметров (масштаб модели),
- либо увеличивать контекстное окно, чтобы в него помещалось больше текста.

Оба пути очень дороги – и вычислительно, и финансово. Именно с этой точки начинается революционность подхода DeepSeek.

---

Почему одной только масштабируемости уже недостаточно

Последние годы индустрия гналась за одним KPI – числом параметров. Миллиарды превращались в сотни миллиардов, а затем – в триллионы. Модели становились всё точнее, но каждый следующий шаг приносил всё меньше выгоды.

Становится очевидно:
- простое наращивание масштаба даёт убывающую отдачу,
- а память и способность эффективно извлекать знания из внешних источников часто важнее, чем ещё пара сотен миллиардов параметров.

Модели на базе Transformer изначально не спроектированы как «системы с долговременной памятью». Они – огромные аппроксиматоры, способные сжать колоссальный объём статистических закономерностей в параметры. Но как только требуется:
- обновляемое знание,
- личная или долговременная память пользователя,
- работа с динамическими базами данных,

архитектура начинает буксовать. Мы прикручиваем костыли: RAG, векторные БД, кэши, но всё это остаётся надстройкой, а не частью самой модели.

DeepSeek с Engram предлагает изменить сам фундамент: перестать притворяться, что вычисления могут полностью заменить извлечение, и встроить механизм быстрого доступа к знаниям в сердце архитектуры.

---

Что делает Engram принципиально иным

Идея Engram проста по формулировке, но радикальна по последствиям:
модель получает отдельный, специализированный слой для быстрого, адресного извлечения знаний, а не имитирует его через миллиарды умножений матриц.

Если классический Transformer:
- получает на вход последовательность токенов,
- прогоняет их по фиксированному числу слоёв,
- в каждом слое вычисляет новые представления одними и теми же параметрами,

то у Engram появляется дополнительный уровень: мгновенное обращение к внешней памяти, организованной особым образом.

Ключевой сдвиг:
- знания перестают быть «размазаны» по параметрам,
- вместо этого значительная их часть лежит в структурированном виде в памяти, к которой модель обращается как к хранилищу.

То есть, вместо того чтобы каждый раз «высчитывать» ответ из параметров, модель делегирует часть работы: «найди похожее в памяти и дообработай». Получается гибрид:
- локальные вычисления (как в обычных LLM),
- плюс глобальное извлечение (как в мощной поисковой системе, встроенной в модель).

---

N-граммные модели: намёк из прошлого

Интересно, что концептуально это напоминает старые добрые n-граммные модели. Те не пытались «понимать» язык, они просто хранили статистику: какие слова с какой вероятностью следуют друг за другом.

Они обладали рядом полезных свойств:
- были локальными: опирались только на последние n токенов,
- легко обновлялись: можно было дозаливать новые данные,
- были предсказуемыми с точки зрения поведения.

Их главный недостаток – отсутствие глобального понимания и ограниченность по контексту. Transformer, по сути, победил их благодаря способности строить глобальные, многошаговые зависимости и помнить «обзорную картину» предложения или документа.

Engram пытается взять лучшее из обоих миров:
- локальную эффективность и простоту обновления из n-грамм,
- плюс глобальное, контекстное понимание из трансформеров.

Отсюда и название: Engram – термин из нейронауки, обозначающий физический след памяти в мозге. Архитектура буквально создаёт «следы» воспоминаний, к которым модель может быстро обратиться.

---

Память вместо гигантского мозга

С точки зрения механики, Engram говорит:
давайте перестанем делать мозг больше и начнём делать память умнее.

При таком подходе:
- базовая модель может быть относительно компактной,
- знания масштабируются через память, а не через параметры,
- обновление фактов превращается из переобучения в пополнение хранилища.

Для инвесторов и бизнеса последствия огромны:
- удешевляется обновление доменных знаний (право, медицина, финансы),
- проще настраивать модели под конкретные отрасли,
- появляется возможность строить продукты, где память пользователя – не временный кэш, а устойчивый, осмысленный слой системы.

Если идея окажется практичной и масштабируемой, это может изменить ландшафт публичных компаний, работающих в областях:
- облачных вычислений,
- баз данных и хранилищ,
- поисковых и рекомендательных систем,
- корпоративных платформ управления знаниями.

---

Зачем нужен «быстрый сборщик знаний»

Классические RAG-системы уже используют векторные базы данных. Они:
1. переводят документы в эмбеддинги,
2. при запросе пользователя ищут ближайшие векторы,
3. подмешивают найденные фрагменты в контекст для модели.

Проблема в том, что этот сборщик существует как внешний сервис. Модель «узнаёт» о результатах поиска только после того, как они уже доставлены. У неё нет внутреннего понятия о том, как именно извлечение встроено в сам процесс мышления.

Engram внедряет извлечение в модель на уровне архитектуры:
- внимание и память взаимодействуют,
- модель сама решает, когда ей «пойти в память»,
- а когда опереться на собственные параметры.

Это похоже на то, как человек:
- иногда вспоминает что-то из долговременной памяти,
- иногда – просто достраивает недостающую часть логикой.

В результате система становится не только точнее, но и энергетически и вычислительно эффективнее: далеко не каждую задачу нужно «прожигать» через весь стек гигантских матриц.

---

Почему вокруг Engram говорят о новом «моменте DeepSeek»

Прошлый громкий прорыв DeepSeek показал, что:
- архитектурные инновации могут обогнать простое масштабирование,
- и что новые принципы проектирования моделей способны резко изменить соотношение «качество–стоимость».

Engram может стать следующим поворотным пунктом по нескольким причинам:

1. Сдвиг парадигмы
Фокус с «чем больше, тем лучше» смещается к «чем умнее память, тем эффективнее интеллект».
Это ближе к биологическим системам, где размер мозга – лишь часть истории, а организация памяти и способов её извлечения зачастую важнее.

2. Практичность для бизнеса
Компании не хотят и не могут бесконечно платить за всё более тяжёлые модели. Архитектура, которая:
- дешевле в обучении и инференсе,
- лучше работает с доменными знаниями,
– имеет очевидное конкурентное преимущество.

3. Новые рынки и продукты
Возникают сценарии:
- персонализированные ИИ с долговременной памятью,
- «корпоративный мозг», знающий всю историю компании,
- отраслевые ассистенты, моментально обновляемые новыми регуляциями, базами знаний и внутренними документами.

---

В чём реальное отличие от привычного RAG

На первый взгляд, можно решить, что Engram – просто «очередной RAG, только встроенный». Но отличие глубже:

- В классическом RAG:
- выборка и ранжирование документов – внешняя процедура,
- модель не участвует в выборе алгоритма поиска,
- граница между «поиском» и «мышлением» жёсткая.

- В Engram-подходе:
- поиск и рассуждение интегрированы,
- веса модели обучаются совместно с механизмами извлечения,
- модель может адаптировать стратегию обращения к памяти под конкретный тип задач.

То есть, у нас не «LLM + костыльный поиск», а единая когнитивная система, где память – такой же обучаемый компонент, как слои внимания.

---

Как это может повлиять на разработчиков и продукты

Для инженеров и архитекторов ИИ-систем подобная архитектура открывает несколько направлений:

1. Новая роль памяти в дизайне приложений
Вопрос будет звучать не только как «какую модель взять?», а:
- какой тип памяти ей нужен,
- как организовать слои долговременной и кратковременной памяти,
- где хранить персональные, а где – общие знания.

2. Гибридные системы
Появляется смысл в том, чтобы:
- совмещать Engram-подобные модели с традиционными БД,
- строить мосты между SQL/NoSQL и векторными представлениями,
- проектировать архитектуры, где ИИ – не надстройка, а центральный мозг, управляющий несколькими типами хранилищ.

3. Контроль и интерпретируемость
Хранилище знаний становится:
- обозримым (его можно анализировать, чистить, обновлять),
- версионируемым (как код),
- управляемым с точки зрения комплаенса и безопасности.

Это особенно важно для отраслей с жёсткими регуляциями, где нельзя позволить себе, чтобы важные решения опирались на «чёрный ящик» без понятных источников данных.

---

Почему память действительно важнее масштаба

Если свести всё к сути, у нас есть два способа «делать ИИ умнее»:

- Наращивать параметры
Пытаясь вместить в веса всё больше статистики о мире.
Плюсы: универсальность, обобщающая способность.
Минусы: дороговизна, сложность обновления фактов, ограниченность персонализации.

- Улучшать память и извлечение
Делая модель способной эффективно обращаться к расширяемому, внешнему хранилищу.
Плюсы: гибкость, обновляемость, персонализация, экономичность.
Минусы: сложность архитектуры, необходимость продуманного дизайна хранилищ и индексов.

Мир, в котором побеждает второй подход, – это мир:
- менее монолитных,
- более модульных ИИ-систем.

Где «мозг» модели остаётся относительно стабильным, а главное конкурентное поле переносится в область:
- качества памяти,
- алгоритмов извлечения,
- и интеграции этого всего в когнитивный цикл.

---

Что нас может ждать дальше

Если Engram подтвердит свою эффективность в боевых условиях, следующая волна ИИ-прорывов будет выглядеть иначе, чем прошлые:

- меньше гонки за рекордными размерами моделей,
- больше гонки за:
- скоростью и качеством извлечения,
- архитектурами памяти,
- комбинированием локальных и глобальных знаний.

В перспективе это может привести к системам, которые:
- запоминают опыт взаимодействия с пользователем годами,
- сохраняют «биографию» организации, продукта, проекта,
- и всё это – не дополнение к модели, а неотъемлемая часть её работы.

На этом фоне вопрос «ждёт ли нас новый момент DeepSeek» выглядит вполне уместно. Если прошлый сдвиг показал, что можно по-новому взглянуть на обучение и оптимизацию LLM, то Engram демонстрирует, что и память – не придаток к модели, а ключевой, архитектурный элемент интеллекта.

Именно поэтому всё больше специалистов склоняются к мысли: в ближайшие годы главным полем битвы в ИИ станет не размер моделей, а то, как и где они хранят знания и насколько умно умеют к ним обращаться.

2
1
Прокрутить вверх