научпоп

276

4 июля 2025

научпоп

VLA, симуляторы и яичница с заземлением: как готовят роботов к встрече с реальным миром

научпоп

276

4 июля 2025

VLA, симуляторы и яичница с заземлением: как готовят роботов к встрече с реальным миром

Изображение создано
с помощью нейросети

Изображение создано с помощью нейросети

276

4 июля 2025

В последние годы робототехника совершила скачок, сопоставимый с десятилетиями развития в XX веке. Появились прототипы умных машин, способных автономно перемещаться в пространстве, распознавать голосовые команды и ассистировать человеку. Но до человеческой легкости решения бытовых задач роботу еще далеко: в реальном мире его алгоритмам приходится иметь дело с изменчивой средой и непредсказуемостью других участников процесса. В группе «Воплощенные агенты» Лаборатории когнитивных систем AIRI исследуют, как искусственный интеллект может помочь машинам принимать решения в условиях реального мира. С руководителем группы Алексеем Ковалёвым мы поговорили о том, как научить робота делать яичницу и не вызвать у него галлюцинации.

Из интервью вы узнаете

чем интеллект робота отличается от ChatGPT и что их объединяет
почему идеальная механика — уже не самое главное в робототехнике
какие качества важнее инженерного опыта, если вы хотите работать исследователем ИИ

— Алексей, тема твоего выступления в Лектории — самообучение роботов. В чем разница между тем, как принимает решения робот и человек? Кажется, наше биологическое сознание тоже имеет дело с анализом больших данных — собственного жизненного опыта.

Я не специалист в том, как принимает решение человек, это очень сложный процесс. С роботами все проще, так как это чистая математика. LLM, большие языковые модели — не что иное, как перемножение матриц. У нас есть большие таблицы чисел, которые мы перемножаем и складываем. И когда робот принимает решение, оно основано на достижении некоторой цели. С точки зрения математики это максимизация какого-то значения. А вот далее все очень специфично. Робот, который решает повернуть налево или направо в лабиринте, решает одну задачу. А робот, который думает, как взять яблоко со стола — другую. Подходы используются разные, но решения робота всегда основаны на каком-то значении, которое можно оценить.

— Эти алгоритмы похожи на те, что использует условный ChatGPT? Готовиться ли нам к галлюцинациям своих потенциальных домашних ассистентов?

Есть два варианта развития. С одной стороны, существуют подходы, которые никак не похожи на большие языковые модели. Например, можно использовать обучение с подкреплением или клонирование поведения, то есть имитационное обучение. Но сейчас, когда случился бум LLM, их стали применять везде, в том числе и в робототехнике. Прежде всего, такие модели используются для планирования поведения. Скажем, у вас есть задача для робота: «Приготовить яичницу». Вы пропускаете эту команду через LLM, а она разбивает ее на шаги: подойди к холодильнику, открой его, возьми яйца и так далее.

Робот-гуманоид Optimus (Tesla): манипуляция с хрупкими объектами. Источник

— Но ведь, в отличие от ChatGPT, роботу недостаточно просто рецепта. Ему нужно знать, где холодильник, плита и на какой полке у вас сковородка.

Именно так, для робототехники оперирования только с текстом мало — необходим grounding, «заземление на среду». Для этого применяются визуально-языковые модели VLM, которые анализируют и картинку, и текст. С их помощью робот оценивает окружающую обстановку, и если он открыл холодильник, а там пусто, то понимает: необходим иной план решения данной задачи.

Но и этого на данном этапе развития технологии уже недостаточно. Последняя тенденция — VLA, Vision Language Action Model. Один из способов ее создать — взять за основу LLM, на этом фундаменте надстроить VLM, а поверх — модель, которая умеет предсказывать дальнейшее действие робота.

— Получается трехслойная интеграция?

Не совсем интеграция. Это как торт из слоеного теста — модели строятся поверх друг друга, и у каждого разработчика может быть своя рецептура. Многие модели выкладывают в Open Source, поэтому у любого робототехника-энтузиаста есть возможность делать с их помощью что-то свое. Например, Open VLA — одна из первых открытых моделей в своей категории. Над ней работал большой коллектив из MIT, Стэнфорда, Беркли. В проекте также принимали участие Google Deepmind, Toyota Research Institute, Physical Intelligence. Но сама модель построена на основе Prismatic VLM, а та — на основе Llama 2. Разные исследователи дорабатывают результаты друг друга.

— Возвращаясь к галлюцинациям LLM. Какова вероятность, что робот-ассистент, вместо того чтобы приготовить яичницу, ударит вас сковородкой по голове? Как подобные риски решаются в современной робототехнике?

— Технологии и проблемы те же, но в робототехнике они проявляются иначе. Дело в том, что, когда мы используем VLM или LLM для генерации плана действий робота, мы чаще всего намеренно ограничиваем свободу модели — не позволяем ей формулировать инструкции в произвольной форме. Вместо этого мы задаем четкий формат вывода, структуру шагов, допустимые команды и логику взаимодействия с окружающей средой.

Это же касается и моделей, склонных выдумывать несуществующие или опасные действия. В случае с роботами мы не просто проверяем факты, как это бывает в текстовых задачах, а верифицируем последовательность действий в рамках физической модели. Это делает ошибку более предсказуемой и ограниченной по последствиям. Конечно, риск полностью не исключен — ИИ может сгенерировать нерациональное или неоптимальное действие. Но такая инструкция проходит через дополнительные уровни контроля: фильтрацию по базе допустимых команд и симуляцию. На последнем этапе — тестирование в условиях реального мира.

— Какие еще вызовы ты видишь на пути гуманоидных роботов к серийному производству?

Сейчас появилось целое направление исследований, которое касается не только гуманоидных роботов, — как бороться со взломами VLA и VLM. Что это серьезная угроза, очевидно уже по jailbreak-приемам для LLM, когда модель начинает выдавать то, что не должна.

С VLM и VLA, которые управляют роботами, вопрос еще острее, так как речь уже не про текст на дисплее. Взломщики могут заставить робота делать что-то не так.

Разработка Boston Dynamics — робот Atlas — выполняет паркур. Источник

— То есть те роботы, которых мы увидим в серийном производстве в ближайшие годы, будут работать с серьезными ограничениями? Судя по промо-роликам некоторых компаний, их гуманоиды уже совершеннее человека: тяжести носят, сальто делают, танцуют.

Нужно понимать, что робот — это комбинация механической платформы и системы управления. И если у вас есть отличная механика, это еще не значит, что робот действительно умеет решать задачи в реальном мире. Особенно те, которые требуют понимания контекста, понимания целей и гибкого планирования.

Показательный пример — робособаки. Их можно без труда приобрести уже сегодня — они быстро бегают, управляются с пульта, и лет пять — семь назад это действительно восхищало. Но сейчас, когда на конференциях я в очередной раз встречаю такую собаку, хочется спросить: «А что нового?».

Идеальная механика впечатляет, но без автономного управления и способности к обучению она теряет ценность.

С гуманоидными роботами задача управления намного сложнее. У них две руки, то есть речь идет о бимануальной манипуляции. Другая сложность — ходьба на двух конечностях. И особый вызов — whole-body control, когда навигация и манипуляция происходят одновременно. К примеру, робот не останавливается, чтобы взять предмет, а берет его, проходя мимо. Скоординировать эти действия очень непросто. Это требует сложных моделей восприятия, моторного контроля и быстрого принятия решений в реальном времени. По этой причине мы пока не наблюдаем гуманоидов в быту, в отличие от тех же собак или умной техники, скажем, музыкальных колонок, которые есть уже почти в каждом доме. Умные колонки уже часть нашей повседневности: по нашим голосовым указаниям они включают свет, напоминают нам о планах, читают сказки нашим детям. А вот чтобы по той же голосовой команде робот принес чай или подал тапочки — до этого мы пока не дошли. Разрыв между пониманием языка и физическим исполнением задачи остается серьезным.

— В лаборатории ты руководишь группой «Воплощенные агенты». Чем именно занимается твоя команда?

В AIRI мы больше занимаемся обучением с подкреплением, когда робот сам взаимодействует с миром и учится через вознаграждение — грубо говоря, за правильное действие ему ставится плюс, за ошибку минус. Это ложится в концепцию направления, называемого Embodied AI — «Воплощенный искусственный интеллект». В простом понимании это робот, на котором установлена ИИ-система, способная обучаться при взаимодействии со средой.

Также я работаю в МФТИ, где исследую практику применения больших языковых и визуально-языковых моделей для робототехники. Недавно у нас две статьи прошли на конференцию IROS — одну из топовых по робототехнике. До этого статья прошла на ACL — ведущий форум по компьютерной лингвистике и ИИ.

— Как вы проверяете решения, которые описываете в своих исследовательских статьях?

Помимо тестов на реальных роботах, много экспериментов ставится в симуляторах. Роботы дорогие и медленные, исследователям с ними непросто работать. Симулятор позволяет провести сотни экспериментов за то время, которое требуется на один тест на физическом объекте.

— Над какой задачей вы сейчас работаете?

Одно из направлений — обработка неоднозначных инструкций. Люди привыкли общаться, опуская массу деталей, которые кажутся очевидными. Мы не сопровождаем просьбу приготовить чай уточнением, что для этого следует вскипятить воду — просто потому, что уверены: собеседник поймет. Нам хочется, чтобы и общение с роботом было таким же естественным. Но у него нет ни интуиции, ни контекста — если он никогда раньше не был у вас на кухне, он не знает, что соль вы храните на второй полке справа, а столовые приборы — в левом ящике у плиты.

Мы предложили подход, в котором неоднозначность делится по типам ситуации. Если речь идет о пользовательских предпочтениях, а у робота нет истории взаимодействия, — лучше задать уточняющий вопрос. Если же это common sense, то есть знания из разряда общедоступных, то уточнять не следует, достаточно предположения. К примеру, когда пользователь говорит «налей стакан воды», робот не должен переспрашивать, нужно ли подойти к крану.

— А если попросить включить на кухне газ? Или сделать воду в ванной погорячее?

Эти задания затрагивают проблему безопасности. В данном случае действует принцип «лучше переспросить, чем ошибиться». Скажем, команда: «Подогрей картошку в микроволновке». Если рядом стоит металлическая и керамическая посуда, робот должен либо знать, что первая не подходит, либо уточнить, как именно действовать.

— Может быть и такое: робот все понял и начал выполнять задание, но напугал домашнего питомца и тот разбил посуду.

С такими ситуациями связано второе направление нашей работы. Здесь надо иметь в виду, что большие языковые модели изначально «слепы», ведь они работают только с текстом. Мы разработали метод, который можно интегрировать в разные системы управления и который позволяет оценивать ситуацию по изображению.

Модель получает картинку, анализирует ее, высказывает предположения — что пошло не так и как это исправить. После этого предлагается новый план, и робот продолжает выполнение задачи.

Мы уже протестировали этот подход на реальном роботе совместно с Центром робототехники Сбера. Его описанию посвящена одна из статей, принятых на конференцию IROS.

Третья линия исследований — проверка сгенерированных планов действий. Ведь прежде чем робот начнет выполнять серию шагов, важно убедиться, что они вообще выполнимы. Простая задача: «Убери комнату». Робот подобрал носки и собирается положить их в шкаф. Но если шкаф закрыт, LLM может это проигнорировать — или даже «загаллюцинировать» сценарий, в котором кладет вещи сквозь закрытую дверцу. Чтобы избежать таких сбоев, наши алгоритмы проверяют план заранее.

Домашний ассистент Neo Gamma, человекоподобный робот от 1X Technologies. Источник

Еще одно важное направление — планирование на основе информации о сцене. Чтобы строить план действий, робот должен иметь представление об окружающем пространстве. Но проблема в том, что окружающая среда меняется. Люди или другие роботы могут переставить вещи, изменить их состояние. Поэтому при планировании мы используем графовую структуру — модель, где пространство представлено в виде узлов и связей. Такой подход помогает выстраивать логические отношения между элементами окружающей среды. Но даже с этой моделью важно проверять положение дел в моменте. Мы сверяем данные через визуально-языковую модель в реальном времени — чтобы убедиться, действительно ли предметы находятся там, где их ожидает робот.

— На чем вы тестируете свои алгоритмы?

У нас есть собственный робот — мобильная платформа Husky с манипулятором UR5. Но повторюсь: основная работа — в симуляторах, где можно отделить тестирование нашей системы от всех остальных. Это позволяет перепроверять конкретные подходы, в то время как в реальности система может дать сбой, даже не дойдя до выполнения нашей части.

— Насколько симуляторы соответствуют реальности? Можно ли полностью доверять их результатам?

Следует всегда учитывать то, что разработчики называют sim-to-real gap: алгоритм может идеально работать в виртуальной комнате, а в настоящей квартире все пойдет не так — кошка легла на диван, отражение сбило сенсоры, лампочка светит по-другому. Поэтому приходится дообучать модели уже на реальных данных. Но симуляторы незаменимы. Скажем, в виртуальном эксперименте у нас может быть двадцать разных квартир с множеством объектов внутри. Если хотим провести такие тесты на реальном роботе, нам придется арендовать целый этаж жилого дома.

Поэтому часто оптимальный процесс выглядит так: сначала обучение и тестирование в симуляторе и получение модели с базовым уровнем качества, далее — дообучение в реальной среде.

— Как ты пришел в робототехнику и как сложилась команда, с которой теперь работаешь?

Мой маршрут не самый прямой, но, по сути, я вернулся туда, откуда начал. По образованию я инженер по робототехническим системам. Нас учили классической триаде: механика, электроника, управление. Поступал с убеждением, что роботы — это будущее и что к моменту окончания везде будут нужны робототехники. В целом не ошибся, но в 2012 году, когда выпустился, спроса почти не было.

Тогда я ушел в аэрокосмос — работал над навигационными системами для космических ракет. Провел так четыре года и понял, что тянет в науку. Стало интересно машинное обучение, ИИ. Поступил в аспирантуру, защитился и вернулся к робототехнике. А в 2021 году создавался AIRI. Руководитель был моим научным руководителем в аспирантуре — он и пригласил меня.

В AIRI у всех разный опыт, и в этом наша сила. У кого-то база в компьютерной лингвистике, у кого-то — в физике, математике, биоинформатике. Объединяет одно — технический склад ума и интерес к ИИ.

Сегодня все чаще нужны специалисты на стыке и со знаниями в разных областях. Востребован тот, кто понимает язык алгоритмов и в то же время способен общаться с врачами, биологами, химиками. Это становится ключевым. Ученый в нашей сфере — это и программист, и автор статьи, и исследователь, и продакт в одном лице.

— Если бы ты сейчас искал специалиста в свою команду, на что обращал бы внимание в первую очередь?

Программистские навыки и хорошие базовые знания нужны по умолчанию, но уже не являются основным пропуском. Copilot и подобные инструменты меняют правила игры. Намного важнее — мотивация и способность самостоятельно углубляться в тему. И еще любознательность. Это качество, которое пока невозможно заменить программными средствами. Когда я беседую со стажерами, мне важнее понять не то, что они уже знают, а как они думают. Умеют ли ставить вопросы, могут ли сформулировать задачу сами, предположить, почему что-то не получилось и как это можно решить. Это то, чего нет и, как мне кажется, еще долго не будет доступно роботам, и что особенно ценно в людях.

Что почитать и посмотреть по теме

Видеолекции Алексея Ковалёва в рамках проекта Лето с AIRI 2024.
AIRI на Хабре.
Телеграм-канал Алексея Ковалёва.

Научные работы

Huang, Wenlong, et al. «Language models as zero-shot planners: Extracting actionable knowledge for embodied agents.» International conference on machine learning. PMLR (2022).
Ahn, Michael, et al. «Do as I can, not as I say: Grounding language in robotic affordances.» arXiv preprint arXiv:2204.01691 (2022).
Valmeekam, Karthik, et al. «On the planning abilities of large language models-a critical investigation.» Advances in Neural Information Processing Systems 36 (2023): 75993−76005.
Xi, Zhiheng, et al. «The rise and potential of large language model based agents: A survey.» Science China Information Sciences 68.2 (2025): 121101.

Наверх