Исследователи использовали всего 8% самого мощного суперкомпьютера в мире для обучения модели размером с ChatGPT, сообщает портал AI Business.

Для обучения языковой модели размером с ChatGPT от OpenAI обычно требуется огромный суперкомпьютер. Но ученые, работающие на самом мощном в мире суперкомпьютере, разработали инновационные методы обучения гигантских моделей с использованием гораздо меньшего количества оборудования.

В новом исследовании ученые из Ок-Риджской национальной лаборатории (Oak Ridge National Laboratory) обучили большую языковую модель (LLM) с одним триллионом параметров с помощью всего нескольких тысяч графических процессоров на суперкомпьютере Frontier — самом мощном нераспределенном суперкомпьютере в мире и одной из всего двух экзафлопсных систем в мире. В последнем списке Top500 Frontier сохранил за собой корону самого мощного суперкомпьютера, опередив Aurora на базе Intel.

Для обучения гигантской LLM исследователи использовали всего 3072 GPU из 37 888 GPU производства AMD, установленных на Frontier. Это означает, что они обучили модель, сравнимую с ChatGPT с триллионом параметров, всего на 8% вычислительной мощности суперкомпьютера.

Команда Frontier достигла этого результата, используя стратегии распределенного обучения, чтобы по сути обучать модель на всей параллельной архитектуре устройства. Используя такие приемы, как параллелизм с перетасовкой данных для уменьшения обмена данными между слоями узлов и тензорный параллелизм для решения проблем с памятью, исследователи смогли распределить обучение модели более эффективно.

Другие методы, которые исследователи использовали для координации обучения модели, включают конвейерный параллелизм для поэтапного обучения модели на разных узлах с целью повышения скорости.

Результаты показали 100%-ную эффективность масштабирования для моделей размером 175 млрд. и 1 трлн. параметров. В проект также была достигнута высокая эффективность масштабирования для этих двух моделей — 89 и 87% соответственно.

Триллион параметров

Обучение LLM с триллионом параметров всегда является сложной задачей. По словам исследователей, размер их модели составляет не менее 14 Тб. Для сравнения, один графический процессор MI250X, установленный в Frontier, располагает всего 64 Гб памяти.

Для преодоления проблем с памятью необходимо разработать методы, подобные тем, которые предложили исследователи.

Однако одна из проблем, с которой они столкнулись, — это дивергенция потерь из-за больших объемов пакетов. В исследовании говорится, что будущие исследования по сокращению времени обучения для крупномасштабных систем должны быть направлены на улучшение обучения на больших пакетах с применением пакетов меньшего размера на реплику.

Исследователи также отметили специфику применения графических процессоров AMD. Они написали, что большинство крупномасштабных моделей обучаются на платформах, поддерживающих решения Nvidia. Хотя исследователи создали, как они выразились, план эффективного обучения LLM на платформах, отличных от Nvidia, они заявили, что «необходимо провести дополнительную работу по изучению эффективности обучения на GPU AMD».