Люди набирают 100%, топ‑ИИ - менее 2%, а Google ужимает память до 3 бит. Свежий срез того, где мы находимся с "ИИ будущего" и насколько реальность отличается от маркетинга.
---
ARC‑AGI‑3: люди проходят всё, модели - почти ничего
Появился новый бенчмарк для оценки зачатков настоящего AGI - ARC‑AGI‑3. В отличие от привычных тестов вроде экзаменов или задач на код, здесь проверяется умение самостоятельно понять правила среды, где заранее ничего не объяснено.
Основные особенности теста:
- задачей служит набор простых 2D‑игр на поле 64×64 пикселя;
- никаких инструкций: модель (или человек) видит только происходящее на экране;
- нужно самому "догадаться", что от тебя требуется, и пройти уровень;
- игры разнообразны: перемещение объектов, изменение цвета, появление препятствий, скрытые закономерности.
Для человека такие задачи оказываются почти тривиальными: люди демонстрируют близкие к 100% результаты. Для современных LLM всё куда печальнее: лучшие модели не дотягивают даже до 2%, а GPT‑5.4 показывает около 0,26%. По сути - статистический шум, а не реальное понимание.
Это важно по двум причинам:
1. Отсекается натаскивание. Модель не может "узнать" задачу из тренировочного набора или сымитировать решение за счёт подсказок из текста - ей нужно формировать внутреннюю модель мира, а с этим у LLM большие проблемы.
2. Проверяется способность к абстракции. Надо не просто продолжить последовательность, а выводить правила, обобщать и переносить их на новые уровни.
Спор вокруг "чистоты" лидерборда
Организаторы сделали жёсткое ограничение: в официальный рейтинг попадают только "голые" модели, без дополнительных инструментов - браузера, среды исполнения кода, внешних агентов и так далее. Идея понятна: хочется измерить именно "сырую" способность нейросети, а не силу обвязки вокруг неё.
Но у такой позиции есть очевидное противоречие с реальностью. Человек тоже не существует "в вакууме" - он пользуется блокнотом, калькулятором, поиском, другими людьми, языком, привычными интерфейсами. Оценивать способность к решению задач без каких-либо вспомогательных средств - это полезный, но всё‑таки искусственный эксперимент.
Практический вывод: современные модели остаются мощным инструментом в составе системы, но идея "универсального цифрового разума", который сам по себе способен понимать новые абстрактные среды, остаётся далёкой.
---
3‑битная квантизация от Google: как ужать память без убийства качества
Пока одни бьются за проценты в абстрактных бенчмарках, другие решают приземлённую, но критически важную задачу: как сделать модели дешевле в эксплуатации и быстрее в работе. Google представили TurboQuant - алгоритм трёхбитной квантизации, но не для самой модели, а для KV‑кэша.
KV‑кэш (key‑value cache) - это память, в которой хранятся промежуточные представления токенов при генерации текста. Чем больше контекст и длина ответа, тем заметнее он раздувается. Именно кэш становится одним из главных узких мест, особенно при обслуживании большого числа пользователей.
Что делает TurboQuant:
- сжимает представления в KV‑кэше до 3 бит на элемент;
- при этом стремится почти не ухудшать качество генерации;
- позволяет обслуживать больше запросов на том же железе или же уменьшить затраты на инфраструктуру.
Полярные координаты против декартовых
Главный трюк - переход от привычной декартовой системы координат к полярной при хранении векторов. Вместо пары значений вида "(x, y) = (5, 10)" используется представление типа "длина 10, угол 35°".
Чем это полезно:
- модуль и угол можно квантизировать по‑разному и более эффективно;
- при таком подходе распределения значений лучше поддаются сжатию;
- даже при снижении точности хранения деградация качества оказывается минимальной.
Сравнительные графики показывают, что падение качества при переходе с 4 до 3 бит почти неощутимо, зато выигрыш в памяти - существенный. Неудивительно, что на новость отреагировал и рынок: удешевление инференса крупных моделей напрямую влияет на экономику целых компаний.
Если подобные подходы приживутся и будут доработаны, нас ждёт:
- рост длины доступного контекста без кратного увеличения объёма памяти;
- удешевление облачных LLM‑сервисов;
- более широкое проникновение локальных и "пограничных" (edge) моделей на устройства и в частные инфраструктуры.
---
ACP в OpenIDE: универсальный язык для ИИ‑агентов внутри IDE
Ещё один важный шаг в сторону "умных" инструментов разработки - протокол ACP (Agent Communication Protocol), который поддерживается в OpenIDE Pro.
ACP решает простую, но болезненную проблему: каждый ИИ‑агент, интегрируемый в IDE, обычно заново изобретает способ, как:
- узнать, какие файлы открыты;
- понять структуру проекта и технологий;
- запросить у среды нужное действие (создать файл, запустить тесты, применить рефакторинг);
- взаимодействовать с плагинами и тулチェйном.
Без единого протокола каждая интеграция превращается в отдельный мини‑проект с кучей специфики. ACP предлагает стандартизированный способ общения агента и IDE:
- агент сразу имеет доступ к описанию среды: языки, фреймворки, текущий проект;
- IDE предоставляет унифицированные команды и события, на которые агент может реагировать;
- разработчики агентов концентрируются на логике, а не на низкоуровневой интеграции.
Сейчас поддержка ACP находится в стадии бета. На период тестирования функция доступна не только в версии Pro, но и в обычной редакции OpenIDE. Это позволяет быстро обкатать протокол на реальных сценариях: от автодополнения и генерации кода до автономных помощников, управляющих рефакторингом и тестами.
---
Что даёт ACP разработчику на практике
Если смотреть не с точки зрения архитектуры, а глазами рядового программиста, выгоды выглядят так:
- ИИ‑агент понимает контекст проекта, а не один файл;
- может безопасно предлагать изменения сразу в нескольких модулях;
- легко комбинируется с другими плагинами IDE - линтерами, форматтерами, тест‑раннерами;
- появляется перспектива "многозадачных" агентов, которые не просто отвечают на вопросы, а берут на себя части рабочего процесса.
Это ещё не полноценная замена разработчика, но уже серьёзный шаг к ситуациям, где агент может, например:
1. сам создать базовый каркас микросервиса;
2. настроить сборку;
3. добавить тесты;
4. прогнать их;
5. отчитаться в одном окне IDE о проделанной работе.
---
Что готовит Anthropic: Claude Mythos (Capybara)
Параллельно просачиваются детали о следующем флагмане от Anthropic. Внутреннее кодовое название - Claude Mythos, иногда фигурирует альтернативное - Capybara.
По описаниям, это будет новый ценовой сегмент, расположенный выше текущего Claude Opus. То есть речь идёт не просто об улучшении модели, а о выходе на более премиальный уровень:
- большой упор на сложные интеллектуальные задачи;
- повышенные требования к надёжности и безопасности;
- вероятное появление тарифов с ценой обслуживания до нескольких тысяч долларов в месяц.
Если прогнозы по стоимости подтвердятся, можно ожидать, что такие модели будут использоваться в основном:
- в финансах и консалтинге;
- в юридическом анализе;
- в сложной инженерии и научных исследованиях;
- в корпоративных воркфлоу с высокой ценой ошибки.
На массовый рынок такие решения вряд ли выйдут быстро - но они задают направление, куда будут постепенно тянуться более дешёвые варианты.
---
Sora: дорогая мечта о "соцсети из синтетики"
Отдельная история - проект Sora, который задумывался как новая форма социальной платформы: вместо того чтобы делиться реальными фотографиями и видео, пользователь создаёт полностью синтетический контент. Генерируемые ролики, изображения, сцены - всё искусственное, но "персонализированное".
Идея красиво выглядела на презентациях, пока не столкнулась с суровой экономикой.
Ключевая проблема - стоимость генерации видео. Современные модели уровня свежей Google Veo стоят ощутимых денег при создании всего одной минуты видео. А теперь представим:
- миллионы пользователей;
- десятки сгенерированных роликов на каждого в день;
- желание поддерживать качество на флагманском уровне.
Бизнес‑модель просто не сошлась. Цена вычислений оказалась слишком высокой для массовой бесплатной или условно‑бесплатной платформы. В результате проект завершил своё существование без особых перспектив на перезапуск в том же формате.
---
Цикл хайпа: Periscope, Clubhouse, Sora...
История Sora напоминает череду других сервисов, которые:
1. громко выходили;
2. собирали волну хайпа;
3. быстро оказывались экономически неустойчивыми или теряли интерес аудитории.
Periscope, Clubhouse - теперь к ним добавилась ещё и Sora. Объединяет их одно: ставка на эффект новизны и эмоцию "быть в центре нового формата", но при отсутствии чёткой и долговечной экономической модели.
Параллельно мы видим обратные примеры: инструменты без яркого хайпа, но с понятной функцией и монетизацией, тихо занимают свою нишу. В итоге выживают не самые "громкие", а самые устойчивые.
---
GigaChat 3.1 от Сбера: своё, большое и пока не флагман
Сбер представил крупное обновление семейства GigaChat - версию 3.1. По заявлениям, это не дообученная зарубежная модель, а разработка с нуля. Заявка амбициозная, особенно на фоне общемировой гонки.
С текущими мировыми лидерами западного и восточного рынков новая версия ещё не соперничает, но в классе моделей "предыдущего поколения" выглядит вполне конкурентно. В обзорах и сравнительных тестах GigaChat 3.1 противопоставляют именно им - по качеству генерации, умению поддерживать диалог, программированию и работе с документами.
Однако есть несколько практических проблем, которые пользователи замечают уже сейчас.
Непрозрачность версий
Первая претензия - неочевидно, какая именно версия модели используется в данный момент. В интерфейсе обычно отображается просто "GigaChat", без уточнения 3.1 это или более старая модификация.
В результате:
- невозможно достоверно понять, связано ли улучшение/ухудшение ответов с апдейтом модели;
- сложнее сравнивать результаты между пользователями и сценариями;
- любые обсуждения превращаются в пересказ субъективных впечатлений.
Для серьёзного использования ИИ‑инструментов прозрачность версий становится критичным фактором - особенно в корпоративных внедрениях и при интеграции в рабочие процессы.
Некоммуникабельный язык технических анонсов
Вторая проблема - стиль публичных сообщений. Встречаются фразы уровня:
> "Нашли и исправили критический баг в SGLang (версии 0.5.3-0.5.9), из‑за которого качество генерации падало при dp > 1".
Для широкой аудитории такие формулировки выглядят как техническая тарабарщина. Они не объясняют:
- что именно улучшилось;
- как это затрагивает конечного пользователя;
- почему ему стоит радоваться апдейту.
Если такие сообщения публикуются не в документации для разработчиков, а в общедоступных анонсах, создаётся ощущение, что продукт ориентирован на очень узкий круг специалистов, а не на реальных пользователей.
---
Как меняют ландшафт: бенчмарки, квантизация и IDE‑агенты
Если собрать все новости в одну картину, получается достаточно цельная линия развития ИИ‑ландшафта:
1. Новые бенчмарки вроде ARC‑AGI‑3 демонстрируют пределы "чистых" языковых моделей и показывают, что путь к настоящему AGI ещё далёк. Но одновременно они подталкивают к новым архитектурам и гибридным системам.
2. Квантизация KV‑кэша и другие инженерные ухищрения делают возможным масштабирование ИИ‑сервисов без экспоненциального роста затрат. Это фундамент для практического, а не демонстрационного применения.
3. Стандарты наподобие ACP встраивают ИИ прямо в рабочие инструменты, превращая его из "чата ради чата" в часть повседневного рабочего процесса.
4. Новые премиальные модели формируют верхний сегмент рынка - для задач, где качество и надёжность важнее цены.
5. Истории вроде Sora отрезвляют рынок, показывая, что даже самые красивые концепции разбиваются о стоимость вычислений и отсутствие устойчивой бизнес‑логики.
---
Куда всё идёт: не AGI, а "полезный ИИ"
На фоне громких заявлений о "скором AGI" реальность выглядит гораздо более прагматичной:
- модели плохо справляются с задачами, где нужно самостоятельно открыть правила новой среды;
- зато они отлично проявляют себя в узкоспециализированных, хорошо формализуемых сценариях: помощь в коде, анализ документов, поддержка в рутине;
- инженерные улучшения (квантизация, KV‑оптимизации, протоколы интеграции) сейчас дают больше эффекта на практике, чем попытки прыгнуть через голову к "настоящему разуму".
В ближайшие годы нас, скорее всего, ждёт не появление "цифрового суперинтеллекта", а постепенное наполнение всех профессиональных инструментов умными, всё более автономными помощниками. И именно они - а не абстрактные AGI‑бенчмарки - будут незаметно, но радикально менять повседневную работу.



