Базовые модели физического искусственного интеллекта выходят за рамки чат-ботов и обеспечивают работу автономной робототехники в реальном мире. Портал The New Stack рассказывает о том, какую роль при этом играют LBM, VLA и периферийные вычисления.
Физический ИИ, также известный как воплощенный ИИ, считается следующим этапом эволюции в стремлении к созданию автономных систем, которые действуют в реальном мире. Эта парадигма ИИ направлена на более тесное взаимодействие с физической средой, выходя далеко за рамки чат-ботов и роботов для уборки пола.
Физический ИИ оседлал волну ажиотажа и стал звездой CES 2026. Робототехника движется — в буквальном смысле — от внедрения беспилотных автомобилей к развертыванию автономного оборудования и коллаборативных роботов на строительных площадках, складах и в производственных цехах.
По словам Ахила Докки, старшего менеджера Nvidia по маркетингу робототехнических продуктов, эти разработки требуют большего, чем типичные большие языковые модели — они требуют передовой архитектуры, разработанной специально для физического ИИ. «Предприятиям нужны фабрики ИИ для обучения и совершенствования больших мультимодальных базовых моделей для восприятия, моделирования мира и робототехники, поддерживаемых комплексным ПО для обработки данных, оркестровки, безопасности и управления жизненным циклом моделей», — говорит он.
Но на этом все не заканчивается — следующий этап развития физического ИИ выводит передовое сенсорное восприятие и поведение, учитывающее физические законы, на рынок носимых устройств, передового здравоохранения и человекоподобных роботов. Как показали трансляции празднования Нового года по лунному календарю в Китае, роботизированная акробатика теперь превосходит человеческие возможности.
Возьмем, к примеру, робота Spot от Boston Dynamics — роботизированный ИИ, похожий на собаку, появившийся на Reddit, теперь активно используется в физическом пространстве, а работа компании переросла в разработку коммерческих двуногих человекоподобных роботов в рамках программы Atlas.
Эти роботы с универсальной подготовкой теперь выполняют множество реальных промышленных задач и поддерживаются постоянно совершенствующейся базовой программной архитектурой. Но готов ли физический ИИ для среднестатистического предприятия?
«Масштабирование физического ИИ требует надежной экосистемы интеграции аппаратного и программного обеспечения. Когда роботы интегрируют различные датчики, такие как стереокамеры с обзором на 360 градусов, лидары и тепловые или акустические полезные нагрузки, они могут воспринимать окружающую среду за пределами человеческих возможностей», — говорит Мэтт Мальчано, вице-президент Boston Dynamics по ПО.
Хотя в робототехнике обычно в центре внимания находится аппаратное обеспечение, именно программный мозг делает возможным человекоподобное восприятие и рассуждение. А недавние достижения в базовых моделях, специально разработанных для ограничений физического мира, делают разработку физического ИИ более доступной.
Короче говоря, настоящий прорыв в робототехнике заключается не в аппаратном обеспечении, а в новом классе базовых моделей, необходимых для физического ИИ. А реальное внедрение на предприятиях потребует зрелости архитектуры моделей.
Ниже рассматриваются достижения в моделях физического ИИ и проводятся их сравнения. Обсуждаются ограничения и уроки, извлеченные из практики создания физического ИИ, и уникальные различия в его применении в разных отраслях.
Модели, лежащие в основе физического ИИ
«Реальность может быть весьма сложной. Робототехника — это прежде всего открытие сложной реальности мира. Это действительно изучение того, как устроен мир, и обычно он не такой, как вы ожидаете», — говорит Кевин Петерсон, технический директор компании Bedrock Robotics, занимающейся разработкой передовых автономных систем для строительной отрасли.
Он делится своим опытом работы в Waymo, где занимался обучением моделей машинного обучения для беспилотных автомобилей: «Можете себе представить, как я был удивлен, увидев детский день рождения на разделительной полосе между двумя автомагистралями. Вы не ожидаете увидеть детей, бегающих рядом с шоссе, но они там были. А еще в один из наших грузовиков ударила молния».
По этой причине модели физического ИИ должны учитывать тактильную и часто непредсказуемую природу физической реальности. Сегодня для этих целей эффективны несколько классов моделей, особенно локальные или периферийные. Эти модели охватывают такие области робототехники, как управление поведением, сенсорное мышление, моделирование окружающего мира и многое другое.
Поведенческие модели
«Сегодня большие поведенческие модели (LBM) — это передовая технология на переднем крае физического ИИ», — говорит Мальчано, приводя в качестве примера диффузионную трансформерную поведенческую модель Atlas. Вместо программирования для конкретной задачи, LBM обучаются на основе обширной библиотеки демонстраций, проводимых людьми. Это делает их эффективными для сложных, тактильных задач, с которыми традиционный робот может испытывать трудности.
«LBM превосходно справляются с координацией всего тела, шагами, избеганием препятствий и поддержанием равновесия при выполнении деликатной ручной работы», — говорит Мальчано. LBM используют сегментацию действий для прогнозирования движений, добавляет он, что делает их восприимчивыми к возмущениям или неожиданностям, часто способными превзойти скорость реакции человека.
Визуально-языковые модели действий
Другие модели специализируются на рассуждениях на основе сенсорного ввода. «Наиболее эффективными моделями для физического ИИ в робототехнике на периферии являются рассуждающие визуально-языковые модели действий (VLA)», — говорит Докка. Эти модели могут работать на бортовых устройствах и преобразовывать входные данные датчиков и команды на основе языка в цели.
Например, Nvidia Isaac GR00T N — это VLA-модель с открытым мышлением, которая наделяет человекоподобных роботов обобщенными навыками восприятия, рассуждения и контроля. По словам Докки, такие VLA-модели хорошо обобщаются на различные задачи после тонкой настройки, однако их успех зависит от открытости. «Модели должны быть открытыми, чтобы разработчики могли проводить их постобучение для конкретных сценариев использования, используя свои собственные данные», — поясняет он.
Петерсон также отмечает рост применения языковых или визуально-языковых моделей для планирования более высокого уровня. «Эти подходы используют все улучшения больших моделей, такие как рассуждение, а затем преобразуют их в действия робота путем кодирования векторного представления задачи», — говорит он.
Модели VLA, разработанные для рассуждения, принимают гораздо меньше решений в секунду, чем низкоуровневые модели, которые обрабатывают моторику человекоподобных роботов в реальном времени. Таким образом, для достижения максимальных результатов ключевым моментом будет сочетание этих двух типов моделей. «В течение следующих года-двух сообщество робототехников действительно научится сочетать эти подходы и объединять рассуждения высокого и низкого уровней», — говорит Петерсон.
Модели открытого мира
Еще одно семейство моделей для физического ИИ — это модели открытого мира, которые изучают представления о динамике окружающей среды для поддержки планирования и моделирования. Они часто необходимы, например, в автомобильной сфере, для обработки данных с мультимодальных датчиков, таких как камеры, радары, лидары и ультразвуковые датчики.
Например, Nvidia Alpamayo 1 относится к категории моделей открытого мира. Докка описывает ее как «„думающую“ модель мира, которую можно доработать и интегрировать в автомобильные системы, чтобы помочь автомобилям воспринимать, рассуждать и действовать». Nvidia Cosmos — еще один пример базовой модели открытого мира для генерации мира.
Однако существуют препятствия для использования моделей открытого мира, особенно при их применении на периферии. «Сейчас много разговоров о подходах в стиле моделей мира, таких как совместное прогнозирование видео с действием или траекторией, — говорит Петерсон. — Эти методы значительно улучшают производительность, но могут быть очень дорогостоящими».
Более широкое использование моделей в производстве, вероятно, приведет к дальнейшему повышению производительности. Петерсон говорит, что для того, чтобы сделать этот класс моделей более пригодным для использования в производстве, потребуются оптимизации, такие как дообучение в диффузионном алгоритме (skip-training in diffusion) или выполнение прогнозирования в латентном, а не в пиксельном пространстве.
Алгоритмы шумоподавления
Одна из проблем физических моделей ИИ заключается в том, что роботы сталкиваются с практически бесконечным количеством возможностей для простых действий, таких как поднятие предметов или реагирование на препятствие на их пути. Это может приводить к шумному смешению сигналов для физического ИИ, что вызывает путаницу.
«Среди наиболее эффективных моделей, способных работать на периферии сегодня — генеративные стратегии», — говорит Петерсон. К ним относятся стратегии диффузионного типа — алгоритмы, которые помогают роботу уменьшить шум в окружающей среде и на пути принятия решений. «Генеративные стратегии более эффективно справляются с неопределенностью реального мира и изменяющейся динамикой, чем одноразовые предикторы», — добавляет он.
Специализированные модели против универсальных
Затем возникает вопрос размера: должны ли модели быть узкоспециализированными или оставаться универсальными и пригодными для множества сценариев использования? Мнения экспертов по этому вопросу расходятся.
По словам Брайана Мура, соучредителя и генерального директора Voxel51, платформы визуального ИИ, работа на периферии является неотъемлемой частью задачи физического ИИ: «Когда у вас жесткие контуры управления, нецелесообразно отправлять огромные объемы данных с датчиков в облако в режиме реального времени».
Когда вы переносите робототехнику в реальный мир, вы подвергаете ее воздействию богатых данных и многомерных характеристик, включая потенциально нерелевантные. Именно поэтому специализированные модели работают лучше всего, говорит Мур.
«Есть энтузиазм по поводу базовых моделей мира и визуально-языковых моделей действий, но по определению это очень большие модели, которые нецелесообразно использовать на периферийном оборудовании для многих сценариев применения», — добавляет он.
Однако другие предвидят, что отрасль будет отходить от узкоспециализированных моделей к более комплексным, например, к тем, что лежат в основе универсальных гуманоидов. «Модели физического ИИ переходят от восприятия отдельных задач к универсальным специалистам, способным воспринимать, рассуждать, планировать и действовать в различных средах», — говорит Докка.
Ограничения, с которыми сталкивается физический ИИ
С точки зрения ПО и систем, для обеспечения жизнеспособности физического ИИ, помимо уникальных моделей, в масштабе необходимы и другие компоненты.
«Для масштабируемого физического ИИ требуется полнофункциональная платформа ускоренных вычислений, которая соединяет ИИ-супервычисления в дата-центре с ИИ-инференсом в реальном времени на периферии», — говорит Докка. По его мнению, для масштабируемого физического ИИ потребуется сочетание базовых моделей, предпроизводственных сред моделирования и высокопроизводительных периферийных вычислений.
Также будут заметны отличия между отраслями. «Разработка физического ИИ различается в зависимости от отрасли, поскольку приоритеты на всех этапах определяют отличия в задержке, механике, задачах, материалах и условиях эксплуатации, — говорит Петерсон. — В конечном итоге успех достигается за счет согласования модели с динамикой системы и проверки в масштабе».
Допустимый уровень отказов различается в зависимости от области применения. В некоторых областях, таких как автомобилестроение, потребуются более интенсивные предпроизводственные оценки для решения проблем безопасности. «Даже 99,9% успеха совершенно неприемлемо в некоторых областях, — говорит Петерсон. — Исправление множества проблем в обученных системах также является относительно новой областью».
Одной из отраслей, где физический ИИ будет играть значительную роль, является здравоохранение, говорит Докка, приводя в пример его использование в хирургических роботах, медицинской визуализации и поддержке принятия клинических решений в режиме реального времени. Такие сценарии использования потребуют низкой задержки и высокой надежности для соответствия нормативным требованиям, добавляет он. Заводы и склады также активно разрабатывают физический ИИ наряду с цифровыми двойниками.
Независимо от отрасли, важный урок заключается в разделении того, что должно находиться в облачной инфраструктуре (лучше всего подходит для предварительного обучения), и того, что остается на периферии (фактическое выполнение вычислений). Как говорит Петерсон, когда речь идет о крупной автономной технике, первостепенное значение имеют модели ИИ, ориентированные на безопасность и способные работать на периферии. «При столкновении нельзя принимать критически важные решения при задержке в Интернете», — говорит он.
Ближайшее будущее физического ИИ
Недавние достижения в моделях «зрение-язык-действие» и моделях основы мира вызывают большой интерес. Однако существуют технические ограничения на размещение этих передовых моделей физического ИИ на периферии. Системные ограничения, такие как доступ к электропитанию, инфраструктура дата-центров и релевантные данные для обучения и тонкой настройки, также остаются ограничивающими факторами.
Таким образом, переход от экспериментов с физическим ИИ к производству, вероятно, будет следовать продуманной траектории, говорит Докка: «Команды начинают с создания высокоточных цифровых двойников и конвейеров моделирования, масштабируют синтетические данные для достижения целей обучения и оценки, затем переходят к развертыванию под наблюдением человека, прежде чем масштабироваться до целых парков».
Он добавляет, что данные и имитационное тестирование будут иметь решающее значение: «По мере масштабирования фабрик ИИ на оборудовании и инфраструктуре ИИ следующего поколения предприятия смогут непрерывно обучать и обновлять парки роботов, транспортных средств и интеллектуальных пространств, используя синтетические данные и крупномасштабное моделирование».
В целом, эксперты оптимистично смотрят на будущее физического ИИ и ожидают, что разработчики быстро расширят его возможности. «В течение следующих двух-трех лет модели физического ИИ будут продолжать расширяться в возможностях, адаптивности и реальной полезности, открывая все более широкий спектр применений в различных отраслях», — говорит Мальчано.






























