Область искусственного интеллекта становится все более разнообразной благодаря широкому спектру Open Source-альтернатив. Портал The New Stack называет некоторые из открытых больших языковых моделей (LLM), оказывающих наибольшее влияние.

Общественный интерес к LLM значительно вырос после запуска чатбота ChatGPT от OpenAI в конце 2022 г. Хотя становится ясно, что эти инструменты генеративного ИИ обладают большим потенциалом, многие небольшие компании и независимые исследователи в широком ИИ-сообществе по-прежнему с осторожностью относятся к использованию закрытых LLM из-за их эксплуатационных расходов и высоких требований к вычислениям, а также других проблем, таких как право собственности на данные, конфиденциальность и их неприятная склонность иногда «галлюцинировать», выдавая ложную информацию.

Поэтому неудивительно, что за последний год Open Source-альтернативы также набирают обороты. Как отмечается в некоторых исследованиях, хотя LLM с открытым исходным кодом все еще не так мощны, как их закрытые собратья, Open Source-варианты могут быть точно настроены, чтобы превзойти проприетарные модели в решении конкретных задач.

Сфера ИИ становится все более разнообразной благодаря появлению все большего числа альтернатив с открытым исходным кодом, и вот некоторые из LLM-претендентов, которые способны оказать наибольшее влияние.

1. LLaMA и LLaMA 2

В феврале 2023 г. компания Meta (признана террористической и запрещена в России) выпустила первую версию LLaMA, своей LLM с 13 млрд. параметров, которая по результатам тестирования превзошла модель GPT-3 со 175 млрд. параметров в большинстве бенчмарков. Первая версия была выпущена в виде пакета с открытым исходным кодом, к которому разработчики могли запросить доступ по некоммерческой лицензии; однако вскоре модель и ее весовые коэффициенты попали в сеть, что сделало ее фактически открытой для использования всеми желающими.

В июле Meta выпустила LLaMA 2, которая, по словам компании, обучена на 40% большем количестве данных, чем первоначальная версия, а также другие доработанные версии, такие как LLaMA 2-Chat, оптимизированная для человекоподобных разговоров, и LLaMA Code, предназначенная для генерации кода.

Хотя ведутся споры о том, является ли LLaMA 2 действительно открытой, Meta с тех пор несколько расширила условия использования этих моделей, чтобы включить в них и коммерческое использование, что привело к появлению таких производных LLaMA с открытым исходным кодом, как Alpaca, Alpaca-LoRA, Koala, QLoRA, llama.cpp, Vicuna, Giraffe и StableBeluga.

2. Pythia

Pythia, выпущенная в апреле 2023 г. некоммерческой лабораторией EleutherAI, представляет собой набор LLM разного размера, которые обучаются на публичных данных. Pythia задумана как инструмент интерпретации для исследователей, желающих лучше понять процесс обучения LLM и получаемые с их помощью результаты.

3. MPT

Запущенная компанией MosaicML в мае 2023 г. серия больших языковых моделей MPT началась с первоначальной модели с 7 млрд. параметров, за которой в июне последовала версия с 30 млрд. параметров, которая, по утверждению компании, превосходит LLaMA и Falcon, особенно в некоторых случаях, когда требуются более длинные текстовые подсказки.

MPT включает в себя некоторые из новейших технологий в развивающейся области LLM для повышения эффективности, экстраполяции длины контекста и улучшения стабильности для уменьшения скачков потерь.

4. Falcon

Это семейство новейших LLM было представлено в начале июня 2023 г. Технологическим инновационным институтом в Абу-Даби под лицензией Apache 2.0. Первая модель с 40 млрд. параметров мгновенно стала хитом среди разработчиков и исследователей в этой области благодаря тому, что была выпущена с весами.

В сентябре было объявлено о выпуске еще более крупной модели Falcon с 180 млрд. параметров, что делает ее одной из самых больших LLM с открытым исходным кодом. Команда, создавшая Falcon, утверждает, что хотя эта версия немного отстает от закрытых моделей, таких как GPT-4 от OpenAI, она, тем не менее, превосходит LLaMA 2 и стоит плечом к плечу с PaLM 2 Large от Google.

5. BLOOM

Еще одна модель, вызывающая большой резонанс, — BLOOM (сокращение от BigScience Large Open-science Open-access Multilingual Language Model). Хотя на самом деле она была выпущена в июле 2022 г., в наш список она попала потому, что это модель, разработанная в сотрудничестве более 1000 исследователей ИИ из 60 стран и 250 институтов при координации Hugging Face и французских GENCI (Grand Equipement National de Calcul Intensif) и IDRIS (Institute for Development and Resources in Intensive Scientific Computing).

Самая большая из моделей BLOOM, предназначенная для содействия общественным исследованиям LLM, имеет 178 млрд. параметров и обучена на многоязычных данных, полученных из 46 человеческих языков и 13 языков программирования, что делает ее самой большой многоязычной моделью с открытым исходным кодом на сегодняшний день.

6. Mistral

Основанная исследователями, ранее работавшими в Meta и Google, компания Mistral впервые выпустила LLM с 7 млрд. параметров в сентябре 2023 г. По словам представителей парижского стартапа, Mistral 7B превосходит по многим показателям другие LLM с открытым исходным кодом, такие как LLaMA 2. В январе команда выпустила более новую модель под названием Mixtral 8×7B, что вызвало достаточную шумиху, чтобы затмить слишком отрепетированную рекламу релизов крупных технологических компаний.

Поскольку сфера открытых LLM продолжает расширяться, многие разработчики стремятся уменьшить зависимость от API OpenAI, переключаясь на альтернативы с открытым исходным кодом, которые являются более экономичными, прозрачными и настраиваемыми.

Пролприетарные модели пока еще могут иметь небольшое преимущество, но модели с открытым исходным кодом быстро набирают обороты, и некоторые открытые LLM уже превосходят своих собратьев с бóльшим числом параметров, показывая, что качество обучающих данных может иметь большее значение, чем размер. В прошедшем году произошло несколько очень интересных событий в области открытых LLM, и стало ясно, что они будут продолжать играть важную роль по мере развития ландшафта генеративного ИИ.