Пройдя предварительное обучение на огромных объемах текста, ИИ-архитектуры типа «трансформер» становятся мощными языковыми моделями, способными точно понимать и делать прогнозы на основе анализа текста, пишет на портале eWeek генеральный директор AssemblyAI Дилан Фокс.

С момента своего появления в работе «Attention Is All You Need» трансформер-модели полностью изменили обработку естественного языка (Natural Language Processing, NLP) и установили целевую планку для многочисленных эталонов и задач ИИ. Что такое трансформер? Это усовершенствованная модель ИИ, получившая такое «образование», какое десятки людей могут получить за всю жизнь. Архитектуры трансформеров обычно обучаются с частичным привлечением учителя на огромном массиве текстов — Википедии, тысячах книг или даже всего Интернета. Переваривая их, со временем эти архитектуры превращаются в мощные языковые модели, способные заниматься предиктивной аналитикой на основе анализа текстов.

По сути, такой уровень всестороннего обучения позволяет трансформерам добиваться поразительно высокого уровня понимания при чтении написанного человеком текста. Точнее, не просто понимать текст, но и устанавливать с текстом связи верхнего уровня. Недавно было показано, что эти впечатляющие модели обучения можно быстро настроить для решения задач верхнего уровня, таких как анализ настроения, обнаружение дубликатов вопросов и других когнитивных задач на основе текста. Тонкая настройка, или дополнительное обучение модели на каком-то отдельном наборе данных/задаче по сравнению с той, на которой модель обучалась изначально, позволяет лишь слегка изменить параметры сети для новой задачи. Чаще всего это приводит к лучшей производительности и более быстрому обучению, чем если бы та же модель была обучена с нуля на том же наборе данных и задаче.

Преимущества трансформеров:

  1. отлично справляются с последовательными данными. Благодаря этому они работают как система кодирования-декодирования, в которой вначале данные при помощи кодировщика мапируются в репрезентативное пространство. Затем на выходе они мапируются уже декодером. Благодаря этому они хорошо масштабируются на аппаратные средства параллельной обработки, такие как GPU-процессор, который является сверхмощным инструментом для программного обеспечения ИИ;
  2. предварительно обученные трансформер-модели могут быть разработаны для быстрого выполнения соответствующих задач. Они уже глубоко понимают язык, и это позволяет сосредоточиться на обучении любой цели, которую вы ставите перед собой. Например, распознавание именованных объектов, генерация языка, концептуальная направленность. Предварительное обучение делает модели крайне универсальными и способными;
  3. получение функциональности «из коробки». Тонкая настройка предварительно обученных трансформер-моделей позволяет добиться высокой производительности без огромных инвестиций. Для сравнения, чтобы достичь тех же показателей производительности, обучение с нуля займет больше времени и потребует на порядки больше вычислений и энергии;
  4. оптимизация анализа настроений. Трансформер-модели позволяют настроить крупномасштабную языковую модель, обученную на огромном объеме текста (например, полное собрание сочинений Шекспира) для решения конкретной концептуальной задачи, выходящей далеко за рамки простого «чтения», например, анализа настроений и даже предиктивного анализа. Это, как правило, приводит к значительно более высокой производительности, поскольку предварительно обученная модель уже очень хорошо понимает язык, и ей остается только выучить конкретную задачу, а не пытаться одновременно выучить и язык, и задачу.

С момента своего появления трансформеры де-факто стали стандартом для таких задач, как ответы на вопросы, генерация языка и именованных объектов. Хотя будущее предсказать трудно, когда речь идет об ИИ, разумно предположить, что эти модели будут находиться под пристальным вниманием. Наиболее значимой, вероятно, является их способность позволить моделям машинного обучения не только приближаться к тонкостям чтения, которые улавливает человек, но и превосходить его на многих уровнях — далеко за пределами просто количества и скорости.