
VLA, симуляторы и яичница с заземлением: как готовят роботов к встрече с реальным миром

с помощью нейросети
В последние годы робототехника совершила скачок, сопоставимый с десятилетиями развития в XX веке. Появились прототипы умных машин, способных автономно перемещаться в пространстве, распознавать голосовые команды и ассистировать человеку. Но до человеческой легкости решения бытовых задач роботу еще далеко: в реальном мире его алгоритмам приходится иметь дело с изменчивой средой и непредсказуемостью других участников процесса. В группе «Воплощенные агенты» Лаборатории когнитивных систем AIRI исследуют, как искусственный интеллект может помочь машинам принимать решения в условиях реального мира. С руководителем группы Алексеем Ковалёвым мы поговорили о том, как научить робота делать яичницу и не вызвать у него галлюцинации.
- чем интеллект робота отличается от ChatGPT и что их объединяет
- почему идеальная механика — уже не самое главное в робототехнике
- какие качества важнее инженерного опыта, если вы хотите работать исследователем ИИ
Я не специалист в том, как принимает решение человек, это очень сложный процесс. С роботами все проще, так как это чистая математика. LLM, большие языковые модели — не что иное, как перемножение матриц. У нас есть большие таблицы чисел, которые мы перемножаем и складываем. И когда робот принимает решение, оно основано на достижении некоторой цели. С точки зрения математики это максимизация какого-то значения. А вот далее все очень специфично. Робот, который решает повернуть налево или направо в лабиринте, решает одну задачу. А робот, который думает, как взять яблоко со стола — другую. Подходы используются разные, но решения робота всегда основаны на каком-то значении, которое можно оценить.
Есть два варианта развития. С одной стороны, существуют подходы, которые никак не похожи на большие языковые модели. Например, можно использовать обучение с подкреплением или клонирование поведения, то есть имитационное обучение. Но сейчас, когда случился бум LLM, их стали применять везде, в том числе и в робототехнике. Прежде всего, такие модели используются для планирования поведения. Скажем, у вас есть задача для робота: «Приготовить яичницу». Вы пропускаете эту команду через LLM, а она разбивает ее на шаги: подойди к холодильнику, открой его, возьми яйца и так далее.

Именно так, для робототехники оперирования только с текстом мало — необходим grounding, «заземление на среду». Для этого применяются визуально-языковые модели VLM, которые анализируют и картинку, и текст. С их помощью робот оценивает окружающую обстановку, и если он открыл холодильник, а там пусто, то понимает: необходим иной план решения данной задачи.
Не совсем интеграция. Это как торт из слоеного теста — модели строятся поверх друг друга, и у каждого разработчика может быть своя рецептура. Многие модели выкладывают в Open Source, поэтому у любого робототехника-энтузиаста есть возможность делать с их помощью что-то свое. Например, Open VLA — одна из первых открытых моделей в своей категории. Над ней работал большой коллектив из MIT, Стэнфорда, Беркли. В проекте также принимали участие Google Deepmind, Toyota Research Institute, Physical Intelligence. Но сама модель построена на основе Prismatic VLM, а та — на основе Llama 2. Разные исследователи дорабатывают результаты друг друга.
— Технологии и проблемы те же, но в робототехнике они проявляются иначе. Дело в том, что, когда мы используем VLM или LLM для генерации плана действий робота, мы чаще всего намеренно ограничиваем свободу модели — не позволяем ей формулировать инструкции в произвольной форме. Вместо этого мы задаем четкий формат вывода, структуру шагов, допустимые команды и логику взаимодействия с окружающей средой.
Это же касается и моделей, склонных выдумывать несуществующие или опасные действия. В случае с роботами мы не просто проверяем факты, как это бывает в текстовых задачах, а верифицируем последовательность действий в рамках физической модели. Это делает ошибку более предсказуемой и ограниченной по последствиям. Конечно, риск полностью не исключен — ИИ может сгенерировать нерациональное или неоптимальное действие. Но такая инструкция проходит через дополнительные уровни контроля: фильтрацию по базе допустимых команд и симуляцию. На последнем этапе — тестирование в условиях реального мира.
Сейчас появилось целое направление исследований, которое касается не только гуманоидных роботов, — как бороться со взломами VLA и VLM. Что это серьезная угроза, очевидно уже по jailbreak-приемам для LLM, когда модель начинает выдавать то, что не должна.

Нужно понимать, что робот — это комбинация механической платформы и системы управления. И если у вас есть отличная механика, это еще не значит, что робот действительно умеет решать задачи в реальном мире. Особенно те, которые требуют понимания контекста, понимания целей и гибкого планирования.
Показательный пример — робособаки. Их можно без труда приобрести уже сегодня — они быстро бегают, управляются с пульта, и лет пять — семь назад это действительно восхищало. Но сейчас, когда на конференциях я в очередной раз встречаю такую собаку, хочется спросить: «А что нового?».
С гуманоидными роботами задача управления намного сложнее. У них две руки, то есть речь идет о бимануальной манипуляции. Другая сложность — ходьба на двух конечностях. И особый вызов — whole-body control, когда навигация и манипуляция происходят одновременно. К примеру, робот не останавливается, чтобы взять предмет, а берет его, проходя мимо. Скоординировать эти действия очень непросто. Это требует сложных моделей восприятия, моторного контроля и быстрого принятия решений в реальном времени. По этой причине мы пока не наблюдаем гуманоидов в быту, в отличие от тех же собак или умной техники, скажем, музыкальных колонок, которые есть уже почти в каждом доме. Умные колонки уже часть нашей повседневности: по нашим голосовым указаниям они включают свет, напоминают нам о планах, читают сказки нашим детям. А вот чтобы по той же голосовой команде робот принес чай или подал тапочки — до этого мы пока не дошли. Разрыв между пониманием языка и физическим исполнением задачи остается серьезным.
В AIRI мы больше занимаемся обучением с подкреплением, когда робот сам взаимодействует с миром и учится через вознаграждение — грубо говоря, за правильное действие ему ставится плюс, за ошибку минус. Это ложится в концепцию направления, называемого Embodied AI — «Воплощенный искусственный интеллект». В простом понимании это робот, на котором установлена ИИ-система, способная обучаться при взаимодействии со средой.
Помимо тестов на реальных роботах, много экспериментов ставится в симуляторах. Роботы дорогие и медленные, исследователям с ними непросто работать. Симулятор позволяет провести сотни экспериментов за то время, которое требуется на один тест на физическом объекте.
Одно из направлений — обработка неоднозначных инструкций. Люди привыкли общаться, опуская массу деталей, которые кажутся очевидными. Мы не сопровождаем просьбу приготовить чай уточнением, что для этого следует вскипятить воду — просто потому, что уверены: собеседник поймет. Нам хочется, чтобы и общение с роботом было таким же естественным. Но у него нет ни интуиции, ни контекста — если он никогда раньше не был у вас на кухне, он не знает, что соль вы храните на второй полке справа, а столовые приборы — в левом ящике у плиты.
Мы предложили подход, в котором неоднозначность делится по типам ситуации. Если речь идет о пользовательских предпочтениях, а у робота нет истории взаимодействия, — лучше задать уточняющий вопрос. Если же это common sense, то есть знания из разряда общедоступных, то уточнять не следует, достаточно предположения. К примеру, когда пользователь говорит «налей стакан воды», робот не должен переспрашивать, нужно ли подойти к крану.
Эти задания затрагивают проблему безопасности. В данном случае действует принцип «лучше переспросить, чем ошибиться». Скажем, команда: «Подогрей картошку в микроволновке». Если рядом стоит металлическая и керамическая посуда, робот должен либо знать, что первая не подходит, либо уточнить, как именно действовать.
С такими ситуациями связано второе направление нашей работы. Здесь надо иметь в виду, что большие языковые модели изначально «слепы», ведь они работают только с текстом. Мы разработали метод, который можно интегрировать в разные системы управления и который позволяет оценивать ситуацию по изображению.
Модель получает картинку, анализирует ее, высказывает предположения — что пошло не так и как это исправить. После этого предлагается новый план, и робот продолжает выполнение задачи.
Третья линия исследований — проверка сгенерированных планов действий. Ведь прежде чем робот начнет выполнять серию шагов, важно убедиться, что они вообще выполнимы. Простая задача: «Убери комнату». Робот подобрал носки и собирается положить их в шкаф. Но если шкаф закрыт, LLM может это проигнорировать — или даже «загаллюцинировать» сценарий, в котором кладет вещи сквозь закрытую дверцу. Чтобы избежать таких сбоев, наши алгоритмы проверяют план заранее.

Еще одно важное направление — планирование на основе информации о сцене. Чтобы строить план действий, робот должен иметь представление об окружающем пространстве. Но проблема в том, что окружающая среда меняется. Люди или другие роботы могут переставить вещи, изменить их состояние. Поэтому при планировании мы используем графовую структуру — модель, где пространство представлено в виде узлов и связей. Такой подход помогает выстраивать логические отношения между элементами окружающей среды. Но даже с этой моделью важно проверять положение дел в моменте. Мы сверяем данные через визуально-языковую модель в реальном времени — чтобы убедиться, действительно ли предметы находятся там, где их ожидает робот.
У нас есть собственный робот — мобильная платформа Husky с манипулятором UR5. Но повторюсь: основная работа — в симуляторах, где можно отделить тестирование нашей системы от всех остальных. Это позволяет перепроверять конкретные подходы, в то время как в реальности система может дать сбой, даже не дойдя до выполнения нашей части.
Следует всегда учитывать то, что разработчики называют sim-to-real gap: алгоритм может идеально работать в виртуальной комнате, а в настоящей квартире все пойдет не так — кошка легла на диван, отражение сбило сенсоры, лампочка светит по-другому. Поэтому приходится дообучать модели уже на реальных данных. Но симуляторы незаменимы. Скажем, в виртуальном эксперименте у нас может быть двадцать разных квартир с множеством объектов внутри. Если хотим провести такие тесты на реальном роботе, нам придется арендовать целый этаж жилого дома.
Поэтому часто оптимальный процесс выглядит так: сначала обучение и тестирование в симуляторе и получение модели с базовым уровнем качества, далее — дообучение в реальной среде.
Мой маршрут не самый прямой, но, по сути, я вернулся туда, откуда начал. По образованию я инженер по робототехническим системам. Нас учили классической триаде: механика, электроника, управление. Поступал с убеждением, что роботы — это будущее и что к моменту окончания везде будут нужны робототехники. В целом не ошибся, но в 2012 году, когда выпустился, спроса почти не было.
Тогда я ушел в аэрокосмос — работал над навигационными системами для космических ракет. Провел так четыре года и понял, что тянет в науку. Стало интересно машинное обучение, ИИ. Поступил в аспирантуру, защитился и вернулся к робототехнике. А в 2021 году создавался AIRI. Руководитель был моим научным руководителем в аспирантуре — он и пригласил меня.
Сегодня все чаще нужны специалисты на стыке и со знаниями в разных областях. Востребован тот, кто понимает язык алгоритмов и в то же время способен общаться с врачами, биологами, химиками. Это становится ключевым. Ученый в нашей сфере — это и программист, и автор статьи, и исследователь, и продакт в одном лице.
Программистские навыки и хорошие базовые знания нужны по умолчанию, но уже не являются основным пропуском. Copilot и подобные инструменты меняют правила игры. Намного важнее — мотивация и способность самостоятельно углубляться в тему. И еще любознательность. Это качество, которое пока невозможно заменить программными средствами. Когда я беседую со стажерами, мне важнее понять не то, что они уже знают, а как они думают. Умеют ли ставить вопросы, могут ли сформулировать задачу сами, предположить, почему что-то не получилось и как это можно решить. Это то, чего нет и, как мне кажется, еще долго не будет доступно роботам, и что особенно ценно в людях.
Что почитать и посмотреть по теме
- Видеолекции Алексея Ковалёва в рамках проекта Лето с AIRI 2024.
- AIRI на Хабре.
- Телеграм-канал Алексея Ковалёва.
Научные работы
- Huang, Wenlong, et al. «Language models as zero-shot planners: Extracting actionable knowledge for embodied agents.» International conference on machine learning. PMLR (2022).
- Ahn, Michael, et al. «Do as I can, not as I say: Grounding language in robotic affordances.» arXiv preprint arXiv:2204.01691 (2022).
- Valmeekam, Karthik, et al. «On the planning abilities of large language models-a critical investigation.» Advances in Neural Information Processing Systems 36 (2023): 75993−76005.
- Xi, Zhiheng, et al. «The rise and potential of large language model based agents: A survey.» Science China Information Sciences 68.2 (2025): 121101.