Сегодня тема генеративного интеллекта — одна из самых популярных и востребованных, хотя с момента ее широкой публичности прошло чуть более двух с половиной лет. Компании из всех секторов экономики работают над тем, как встроить новую технологию в свои бизнес-процессы. Согласно прогнозам исследовательской компании Statista, c 2024 по 2030 гг. мировой рынок ИИ будет расти со скоростью 28,46% в год.
Но недавно рынок всколыхнула совершенно противоположенная новость: запасы данных в мире для обучения языковых моделей исчерпаются в
Давайте разбираться, действительно ли данные в Интернете могут закончиться к
Не надо забывать про информацию, защищенную авторскими правами (которая по идее должна исключаться из обучения, хотя это сложно до конца проконтролировать). Здесь также можно предлагать интересные модели монетизации для авторов для получения согласия на ее обработку.
Еще одно поле — внутренняя корпоративная информация (почта, чаты, закрытые репозитории кода и т. д.), где только предстоит выстроить отношения между ИИ-разработчиками и владельцами информации. Не исчерпано направление по повышению качества уже доступной и обработанной информации. Не стоит также забывать, что сама реакция пользователей на ответы ИИ, уточнение контекста вопроса и структура диалога являются дополнительной информацией, которая генерируется уже в процессе работы ИИ и в какой-то момент попадет в Интернет.
В исследовании Epoch AI речь идет исключительно о зарубежных моделях. А как дела обстоят в отечественном контуре ИИ-разработок? Как минимум все создатели GPT-подобных моделей ИИ используют обратную связь от человека после предобучения на корпусе текстов на этапах Alignment (к примеру, SFT и RLHF), но данной информации чаще всего нет в Интернете, и она сильно влияет на итоговое качество работы ИИ. Бесспорно, темпы раскрытия особенностей работы отечественных моделей отстают от западных, как и масштабы самих разработок. Но это не означает, что данное направление не развивается нашими ИТ-компаниями и исследователями.
Многие видят решение проблемы конечности данных для обучения в создании синтетических данных, тех, которые созданы самим ИИ в процессе работы. Успешный результат подхода по самообучению нейронных сетей уже продемонстрирован Google на примере AlphaGo Zero, которая не училась у человека играть в Go, а тренировалась сама с собой и в итоге превзошла результаты AlphaGo. Ее обучение было построено на истории игр человека. Таким образом, не нужно исключать, что когда-то и GPT-подобные модели пойдут по этому пути, однако надо учитывать, что такой подход потребует еще большего количества вычислительных мощностей и времени.
Уже сейчас опубликовано много работ по альтернативным архитектурам нейросетей (например, xLSTM, KAN, Mamba). Не прекращаются исследования и разработки для ускорения вычислений, что может повлиять на развитие как доминирующей, так и какой-то из новых архитектур. Ведущие ИТ-гиганты (Apple, Google, Microsoft, Samsung) запускают продукты со встроенным персональным ИИ, где на первый план выходит не высокое качество работы ИИ, а автономность и производительность на устройстве пользователя. Такой подход может продиктовать новые, еще неизвестные направления развития нейросетей. Пока нет смысла прогнозировать конец данных — слишком много переменных, и прогресс в этой области не остановится в ближайшее время.