Что если искусственный интеллект однажды превзойдет интеллект человека? Именно такой «сверхинтеллект» ожидает OpenAI — возможно, уже в этом десятилетии, и компания собирает новую команду, нацеленную на то, чтобы привести его в соответствие с интересами человечества, сообщает портал EnterpriseAI.

«Как обеспечить, чтобы системы ИИ, будучи намного умнее человека, следовали человеческим намерениям?» — спрашивается в сообщении в блоге OpenAI, анонсирующем новую команду под названием Superalignment, которую возглавят авторы поста Илья Суцкевер и Ян Лейке.

Компания заявила, что сосредоточится не на ИИ общего назначения (ИИОН, AGI), а на сверхинтеллектуальном ИИ, чтобы «подчеркнуть гораздо более высокий уровень его возможностей». Суцкевер и Лейке утверждают, что в настоящее время нет метода управления сверхинтеллектуальным ИИ и что существующие стратегии согласования ИИ с человеческими ценностями и целями, такие как обучение с подкреплением на основе обратной связи от человека, не будут применимы к системам, превосходящим наши собственные способности.

OpenAI заявляет, что собирает команду лучших исследователей и инженеров в области машинного обучения для работы над проблемой согласования сверхинтеллекта: «Наша главная ставка на фундаментальные исследования — этим займется Superalignment, но правильное решение этой задачи имеет решающее значение для достижения нашей миссии, и мы ожидаем, что многие команды внесут свой вклад, от разработки новых методов до их масштабирования вплоть до внедрения», — пишут авторы.

Суцкевер является соучредителем и главным ученым OpenAI. Лейке возглавлял в OpenAI команду по согласованию, чей подход был сосредоточен на трех столпах: обучение систем ИИ с использованием обратной связи от человека, обучение систем ИИ для помощи в оценке человеком и обучение систем ИИ для проведения исследований согласования. По его словам, бóльшая часть предыдущей команды по согласованию присоединилась к новой команде Superalignment.

OpenAI также в течение следующих четырех лет выделит на эти цели 20% вычислительных мощностей, которыми она располагает на сегодняшний день. По мнению Лейке, 20% вычислительных ресурсов — это не мало, и он впечатлен тем, что OpenAI готова выделять ресурсы в таких масштабах.

«Это самые большие инвестиции в согласование, которые когда-либо были сделаны, и, вероятно, это больше, чем человечество потратило на исследования согласования в целом на сегодняшний день», — отметил он.

Перед командой Superalignment поставлена амбициозная цель — решить основные технические проблемы согласования суперинтеллекта за четыре года. Работа команды будет сосредоточена на повышении безопасности текущих моделей, таких как ChatGPT, понимании и снижении рисков ИИ, таких как неправильное использование, экономические потрясения, дезинформация, предвзятость и дискриминация, а также зависимость и чрезмерная уверенность.

Авторы также отмечают, что социотехнические проблемы — или вопросы, связанные с совместной работой людей и машин — также станут областью внимания. OpenAI заявляет, что активно взаимодействует с междисциплинарными экспертами, чтобы «убедиться, что наши технические решения учитывают более широкие проблемы человека и общества».

Команда обозначила свою первую цель: создать автоматизированный исследователь согласования на уровне человека. «Затем мы сможем использовать огромные объемы вычислений для масштабирования наших усилий и итеративного согласования сверхинтеллекта», — планирует команда.

Для этого исследователям необходимо разработать масштабируемый метод обучения, проверить полученную модель и провести стресс-тестирование всего конвейера согласования, заявляет команда. Стресс-тестирование включает в себя подачу обучающего сигнала на задачи, которые трудно оценить человеку, чтобы системы ИИ можно было использовать для оценки других систем ИИ. Оно также предполагает автоматизацию поиска и интерпретации проблемного поведения.

«Наконец, мы сможем проверить весь наш конвейер, намеренно обучая несогласованные модели и подтверждая, что наши методы обнаруживают наихудшие виды несогласованности (тестирование методом подмены)», — пишут авторы.

Элиезер Юдковский, скандальный исследователь ИИ, известный своим мнением о том, что проблема согласования ИИ не может быть решена, среагировал на эту новость вопросом к Лейке: «Как вы узнаете, что терпите неудачу или недостаточно быстро прогрессируете?». «Мы будем пристально смотреть на эмпирические данные по мере их поступления, — ответил Лейке. — Мы сможем измерять локальный прогресс в различных частях нашей дорожной карты исследований (например, в области масштабируемого надзора). И сможем увидеть, насколько хорошо проходит согласование GPT-5. Мы будем внимательно следить за тем, как быстро развивается технология».