Сегодня тема генеративного интеллекта — одна из самых популярных и востребованных, хотя с момента ее широкой публичности прошло чуть более двух с половиной лет. Компании из всех секторов экономики работают над тем, как встроить новую технологию в свои бизнес-процессы. Согласно прогнозам исследовательской компании Statista, c 2024 по 2030 гг. мировой рынок ИИ будет расти со скоростью 28,46% в год.

Но недавно рынок всколыхнула совершенно противоположенная новость: запасы данных в мире для обучения языковых моделей исчерпаются в 2026-2030 гг. Эксперты исследовательского института Epoch AI подсчитали, что мировой запас общедоступных текстов, созданных человеком, составляет 300 трлн. символов, и этот запас будет исчерпан при обучении больших языковых моделей (LLM) уже к 2030 г., а высококачественные данные закончатся к 2028 г. Тем временем ИИ-разработчики продолжают выпускать новые версии своих решений. Например, для обучения языковой модели типа GPT-3 потребовалось 570 Гб текстовой информации.

Давайте разбираться, действительно ли данные в Интернете могут закончиться к 2028-2030 гг.? Все исследование преследует цель некоторого «шок-контента». Сейчас обработана самая доступная, преимущественно текстовая информация, хотя пример OpenAI по расшифровке диалогов YouTube и преобразованию в текст продемонстрировал направление по получению новых данных из Интернета. Но источников информации в сети еще много: информация на видео и картинках, голосовая информация — здесь делаются только первые шаги по переводу ее в текст. Существуют сложные связи и зависимости между диалогами и ответами на площадках для общения, геолокация и еще много других видов связей, которые могут обогащать контекст вокруг текстовой информации.

Не надо забывать про информацию, защищенную авторскими правами (которая по идее должна исключаться из обучения, хотя это сложно до конца проконтролировать). Здесь также можно предлагать интересные модели монетизации для авторов для получения согласия на ее обработку.

Еще одно поле — внутренняя корпоративная информация (почта, чаты, закрытые репозитории кода и т. д.), где только предстоит выстроить отношения между ИИ-разработчиками и владельцами информации. Не исчерпано направление по повышению качества уже доступной и обработанной информации. Не стоит также забывать, что сама реакция пользователей на ответы ИИ, уточнение контекста вопроса и структура диалога являются дополнительной информацией, которая генерируется уже в процессе работы ИИ и в какой-то момент попадет в Интернет.

В исследовании Epoch AI речь идет исключительно о зарубежных моделях. А как дела обстоят в отечественном контуре ИИ-разработок? Как минимум все создатели GPT-подобных моделей ИИ используют обратную связь от человека после предобучения на корпусе текстов на этапах Alignment (к примеру, SFT и RLHF), но данной информации чаще всего нет в Интернете, и она сильно влияет на итоговое качество работы ИИ. Бесспорно, темпы раскрытия особенностей работы отечественных моделей отстают от западных, как и масштабы самих разработок. Но это не означает, что данное направление не развивается нашими ИТ-компаниями и исследователями.

Многие видят решение проблемы конечности данных для обучения в создании синтетических данных, тех, которые созданы самим ИИ в процессе работы. Успешный результат подхода по самообучению нейронных сетей уже продемонстрирован Google на примере AlphaGo Zero, которая не училась у человека играть в Go, а тренировалась сама с собой и в итоге превзошла результаты AlphaGo. Ее обучение было построено на истории игр человека. Таким образом, не нужно исключать, что когда-то и GPT-подобные модели пойдут по этому пути, однако надо учитывать, что такой подход потребует еще большего количества вычислительных мощностей и времени.

Уже сейчас опубликовано много работ по альтернативным архитектурам нейросетей (например, xLSTM, KAN, Mamba). Не прекращаются исследования и разработки для ускорения вычислений, что может повлиять на развитие как доминирующей, так и какой-то из новых архитектур. Ведущие ИТ-гиганты (Apple, Google, Microsoft, Samsung) запускают продукты со встроенным персональным ИИ, где на первый план выходит не высокое качество работы ИИ, а автономность и производительность на устройстве пользователя. Такой подход может продиктовать новые, еще неизвестные направления развития нейросетей. Пока нет смысла прогнозировать конец данных — слишком много переменных, и прогресс в этой области не остановится в ближайшее время.

Сергей Назаренко, руководитель направления Big Data группы “Рексофт”