Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Искусственный интеллект: Статьи Новости компаний Решения

Панорама

Корпоративная мобильность: тренды, подходы, реализация

Возможность мобильной работы с документами удобна для сотрудников, но также экономически выгодна компании …

Сетевые фильтры Powercom: оптимальная защита вашей электроники

Сложно представить себе современную квартиру или офис без большого количества электрических розеток. Их всегда …

Почему разработчики выбирают Flutter: опыт Кирилла Адещенко

Руководитель мобильной разработки крупного банка о своих методиках на основе популярного кроссплатформенного …

Облака: вчера, сегодня, завтра

GoCloud 2024, конференция крупнейшего российского облачного провайдера Cloud.ru, привлекла внимание многих участников …

МТС запустил сервис для работы с документами SmartDocs

ПАО «МТС» цифровая экосистема, объявила о запуске сервиса SmartDocs. Новое решение повысит эффективность …

Frontier: обучение моделей с триллионами параметров с применением на порядок меньшего количества GPU

10.01.2024

Исследователи использовали всего 8% самого мощного суперкомпьютера в мире для обучения модели размером с ChatGPT, сообщает портал AI Business.

Для обучения языковой модели размером с ChatGPT от OpenAI обычно требуется огромный суперкомпьютер. Но ученые, работающие на самом мощном в мире суперкомпьютере, разработали инновационные методы обучения гигантских моделей с использованием гораздо меньшего количества оборудования.

В новом исследовании ученые из Ок-Риджской национальной лаборатории (Oak Ridge National Laboratory) обучили большую языковую модель (LLM) с одним триллионом параметров с помощью всего нескольких тысяч графических процессоров на суперкомпьютере Frontier — самом мощном нераспределенном суперкомпьютере в мире и одной из всего двух экзафлопсных систем в мире. В последнем списке Top500 Frontier сохранил за собой корону самого мощного суперкомпьютера, опередив Aurora на базе Intel.

Для обучения гигантской LLM исследователи использовали всего 3072 GPU из 37 888 GPU производства AMD, установленных на Frontier. Это означает, что они обучили модель, сравнимую с ChatGPT с триллионом параметров, всего на 8% вычислительной мощности суперкомпьютера.

Команда Frontier достигла этого результата, используя стратегии распределенного обучения, чтобы по сути обучать модель на всей параллельной архитектуре устройства. Используя такие приемы, как параллелизм с перетасовкой данных для уменьшения обмена данными между слоями узлов и тензорный параллелизм для решения проблем с памятью, исследователи смогли распределить обучение модели более эффективно.

Другие методы, которые исследователи использовали для координации обучения модели, включают конвейерный параллелизм для поэтапного обучения модели на разных узлах с целью повышения скорости.

Результаты показали 100%-ную эффективность масштабирования для моделей размером 175 млрд. и 1 трлн. параметров. В проект также была достигнута высокая эффективность масштабирования для этих двух моделей — 89 и 87% соответственно.

Триллион параметров

Обучение LLM с триллионом параметров всегда является сложной задачей. По словам исследователей, размер их модели составляет не менее 14 Тб. Для сравнения, один графический процессор MI250X, установленный в Frontier, располагает всего 64 Гб памяти.

Для преодоления проблем с памятью необходимо разработать методы, подобные тем, которые предложили исследователи.

Однако одна из проблем, с которой они столкнулись, — это дивергенция потерь из-за больших объемов пакетов. В исследовании говорится, что будущие исследования по сокращению времени обучения для крупномасштабных систем должны быть направлены на улучшение обучения на больших пакетах с применением пакетов меньшего размера на реплику.

Исследователи также отметили специфику применения графических процессоров AMD. Они написали, что большинство крупномасштабных моделей обучаются на платформах, поддерживающих решения Nvidia. Хотя исследователи создали, как они выразились, план эффективного обучения LLM на платформах, отличных от Nvidia, они заявили, что «необходимо провести дополнительную работу по изучению эффективности обучения на GPU AMD».

Печать Печать без изображений

Frontier: обучение моделей с триллионами параметров с применением на порядок меньшего количества GPU

Триллион параметров

Комментарии