Gr00t N1.5: архитектура и данные Vla-модели нового поколения от Nvidia

GR00T N1.5: архитектура, данные и эволюция VLA-моделей

Мы вступили в эпоху Vision-Language-Action систем, где единая модель напрямую преобразует сенсорику в управляющие сигналы для роботов. Хотя первому поколению VLA всего около года (π₀ была представлена 31 октября 2024), уже сформировалась вторая волна подходов. Ключевая новация — отдельный модуль action head: не просто линейная «голова», а полноценный диффузионный трансформер, обучаемый через flow matching, который генерирует целую траекторию действий, а не одиночный шаг.

Постановка задачи в VLA формулируется максимально прямо: на вход подаются «сырые» наблюдения — видеопоток с камеры робота, текстовые инструкции и текущие суставные состояния; на выходе — целевой вектор углов (или их приращений), который поступает в низкоуровневый контроллер приводов. Без внешнего планировщика, без костылей постобработки — вся логика от понимания сцены до моторной команды живет внутри модели.

GR00T от NVIDIA — одна из самых системно проработанных реализаций этого подхода. С версии N1 до N1.5 модель прошла заметное обновление, а вскоре ожидается N1.6. Важная особенность линейки GR00T — четкое разделение на универсальный мультимодальный «мозг» и специализированный «двигательный» модуль, что упрощает перенос между роботами и задачами.

Архитектура N1.5 состоит из двух крупных подсистем. Во-первых, Vision-Language Encoder (Eagle-2 VLM) — мощная мультимодальная модель, которая кодирует и изображение, и текстовую команду в общий токенизированный скрытый слой. Она используется в замороженном виде, что стабилизирует обучение и позволяет масштабировать корпус данных без риска разрушить ранее выученные визуально-лингвистические представления. Во-вторых, Action Transformer — диффузионный трансформер, обучаемый по задаче flow matching. Он принимает объединенные представления от VLM и State Encoder и предсказывает последовательность действий горизонтами до 16 шагов, что дает пространственно-временной контекст и снижает накопление ошибок.

State Encoder и Action Encoder отвечают за приведение состояния конкретного робота к общей латентной форме. Для каждого типа манипулятора или гуманоидной платформы предусмотрены свои веса энкодера состояний, которые проецируют несовместимую кинематику в унифицированное пространство действий. Итог — модель учится в едином латентном «языке» моторики, где можно переносить навыки и параметры между роботами без полной переучебки всей системы.

Зачем диффузионный трансформер и что такое flow matching? В традиционных поведенческих политиках предсказывается ближайшее действие, и любые ошибки немедленно накапливаются. Диффузионная политика оперирует распределением будущих траекторий, что позволяет учитывать многомодальность: одну и ту же задачу можно выполнить разными путями. Обучение посредством flow matching подгоняет поле скоростей в латентном пространстве так, чтобы плавно переводить шум к правдоподобным траекториям, ускоряя сходимость по сравнению с классическим диффузионным расписанием.

Схема обучения опирается на триплеты вида: изображение + текстовая инструкция + состояние на момент t → предсказание действий на t+1…t+16. Такой формат превращает обучение в задачу последовательной имитации с элементами планирования: модель видит сцену и намерение, затем сразу строит короткий план действий. В процессе важна синхронизация модальностей и корректное выравнивание временных меток, чтобы не искажать соответствия между наблюдениями и действиями.

Сильная сторона GR00T — масштаб и разнообразие обучающих данных. Корпус включает около 6500 часов: собственные телеоператорские демонстрации (~88 часов), крупный массив публичного телеопа с разных роботов (~3300 часов), данные с камер от первого лица, записанные людьми при выполнении бытовых задач (~2500 часов), а также синтетический блок (~2700 часов). Смешение реального и синтетического материала снижает стоимость и повышает покрытие сценариев, а разнообразие тел и сред улучшает переносимость.

Синтетика собирается двумя путями. Simulation Trajectories — демонстрации в симуляторе, дополненные методами типа DexMimicGen, позволяющими варьировать сцены, объекты и параметры движения, чтобы учить робота устойчивости к вариациям. Neural Trajectories — расширение датасета с помощью видео-моделей, дообученных на телеоп-роликах: они генерируют новые сцены и траектории, сохраняя реалистичную динамику. Такой гибрид ускоряет покрытие длинного хвоста редких случаев без ручного сбора.

Особый вызов — использование данных «человек от первого лица». Для этого обучается VQ-VAE, который сжимает наблюдения в латентное «позовое» представление тела. В результате человеческие движения можно сопоставить моторике робота: модель не копирует пиксели, а интерпретирует позу и цель, перенося их в роботизированное пространство действий. Это критично для гуманоидов, где сходство кинематики с человеком частичное, но не полное.

Обучение N1.5 заняло порядка 50 000 GPU-часов на ускорителях NVIDIA H100. На стороне инференса добились впечатляющей задержки: около 100 мс на шаг предсказания на NVIDIA Orin AGX (TensorRT backend), что открывает путь к onboard-использованию на мобильных платформах без внешних серверов. С учетом горизонта из 16 шагов модель может формировать «движущиеся окна» планов в реальном времени, обновляя траекторию на лету.

GR00T N1.5 задуман как foundation-модель: после предобучения на огромном мультидоменных корпусе она быстро донастраивается под конкретный робот и набор задач. Это снижает объем необходимого целевого датасета, ускоряет развертывание и повышает итоговый success rate как в симуляции, так и в реальной среде. В типовом пайплайне дообучения фиксируются веса VLM, адаптируются State/Action Encoders под новую кинематику, а диффузионная политика доучивается на узкоспециализированных демонстрациях.

Практические плюсы подхода:
- Быстрый перенос между платформами за счет унифицированного латентного пространства состояний.
- Устойчивость к многомодальным решениям задач благодаря диффузионной политике.
- Снижение зависимости от дорогих человеческих демонстраций за счет синтетики и egocentric-видео.
- Реал-тайм инференс на бортовом вычислителе без компромиссов по горизонту действий.

Но есть и ограничения. Диффузионные политики все еще тяжелее в обучении, особенно при длинных горизонтах. Качество синтетики критично: артефакты в нейронно-сгенерированных траекториях могут привносить систематические ошибки. Перенос из человеческого позового пространства ограничен различиями в степенях свободы и диапазонах движений. И наконец, долговременные задачи с необходимостью памяти на минуты и больше требуют внешних механизмов состояния, с чем текущие VLA борются лишь частично.

Как строится процесс развертывания на новом роботе? Сначала калибруются камеры и временная синхронизация с датчиками. Затем обучается или подбирается State Encoder под конкретную кинематику и диапазоны суставов. Далее собирается небольшая порция телеоп-демонстраций в целевых задачах, после чего запускается дообучение Action Transformer. В рабочем цикле модель непрерывно предсказывает траекторию на 8–16 шагов, а контроллер низкого уровня отслеживает ее с учетом ограничений по скорости и крутящему моменту. В параллельном контуре работают проверки безопасности — детекция контактов, ограничение по усилиям, зоны запрета движения.

Отдельного внимания заслуживает оценка. Помимо success rate по наборам бытовых манипуляций, важно измерять:
- Робастность к нарушениям сцены (переставленные объекты, частичная окклюзия).
- Стабильность к некорректным или неполным инструкциям.
- Способность к zero-shot переносам между похожими, но не идентичными объектами.
- Деградацию качества по мере увеличения задержки сенсора или «засорения» текстовых команд.

С точки зрения данных, полезно соблюдать баланс между типами источников. Реальные телеоп-ролики формируют «якорь» физической правдоподобности, синтетика расширяет покрытие редких случаев, а человеческое egocentric-видео учит высокоуровневым паттернам манипуляции. Важно поддерживать единый таксономический слой задач и объектов, чтобы модель не путалась в формулировках инструкций и целевых состояний.

Какие улучшения логично ждать в N1.6 и далее? Вероятно, более глубокая интеграция памяти для долгих задач, усиление пространственно-временной агрегации в видеоикодере, еще более строгие процедуры фильтрации синтетики и авто-коррекции траекторий. Также можно ожидать гибких адаптеров для разных частот управления и добавления силовой обратной связи, что улучшит контактные задачи вроде захватов и вдавливания.

Если вы планируете прикладное внедрение, рациональная стратегия выглядит так:
- Подготовьте 5–20 часов целевых телеоп-демонстраций именно в тех средах, где будет работать робот.
- Обогатите их синтетикой с фокусом на вариативности объектов, освещения и поз наблюдателя.
- Примените дообучение только Action Transformer и State Encoder, сохранив VLM замороженным.
- Используйте «учителя» с более медленным, но точным планированием для периодической дистилляции корректирующих сигналов.
- Регулярно проводите стресс-тесты на переносимость и безопасность до выхода в продуктив.

GR00T N1.5 демонстрирует зрелость второго поколения VLA: четкое разделение ролей между восприятием и действием, масштабируемые данные, реал-тайм на борту и практический путь к переносу между роботами. Это уже не лабораторный прототип, а базовый слой для индустриальных сценариев, в котором остались конкретные инженерные задачи — но не фундаментальные пробелы в архитектуре. В следующей части логично сравнить этот подход с линейкой pi0 и разобраться, где сильные и слабые стороны каждого семейства.

1
2
Прокрутить вверх