Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Искусственный интеллект: Статьи Новости компаний Решения

Панорама

ViRush: управление на основе данных в условиях турбулентности

Конференция ViRush 2030, ежегодно проводимая компанией Visiology — основное событие в сфере BI на российском …

СУБД ЛИНТЕР СОКОЛ: Будьте готовы к нагрузкам будущего уже сегодня!

Пока многие разработчики борются с наследием старого кода, мы создали будущее с чистого листа. На конференции …

Как получить финансовый контроль над ИТ: интеграция ITSM+ITAM

ИТ-отдел работает как часы: заявки обрабатываются быстро, доступность услуг высокая, пользователи довольны. Но каждый …

Почему больше ИБ-инструментов не значит безопаснее (и что с этим делать?)

Несколько вызовов определяют сегодняшнюю повестку в ИБ: ужесточения наказаний за утечки, усложнение кибератак …

Дарья Богун: «Обучение IT и криптовалютам скоро станет повсеместным»

Недавно завершился престижный международный конкурса Cases and Faсes, где отбирают самые инновационные и технологичные …

Трансформер-модели — оптимальный выбор для NLP

Сергей Стельмах | 10.12.2021

Дилан Фокс

Пройдя предварительное обучение на огромных объемах текста, ИИ-архитектуры типа «трансформер» становятся мощными языковыми моделями, способными точно понимать и делать прогнозы на основе анализа текста, пишет на портале eWeek генеральный директор AssemblyAI Дилан Фокс.

С момента своего появления в работе «Attention Is All You Need» трансформер-модели полностью изменили обработку естественного языка (Natural Language Processing, NLP) и установили целевую планку для многочисленных эталонов и задач ИИ. Что такое трансформер? Это усовершенствованная модель ИИ, получившая такое «образование», какое десятки людей могут получить за всю жизнь. Архитектуры трансформеров обычно обучаются с частичным привлечением учителя на огромном массиве текстов — Википедии, тысячах книг или даже всего Интернета. Переваривая их, со временем эти архитектуры превращаются в мощные языковые модели, способные заниматься предиктивной аналитикой на основе анализа текстов.

По сути, такой уровень всестороннего обучения позволяет трансформерам добиваться поразительно высокого уровня понимания при чтении написанного человеком текста. Точнее, не просто понимать текст, но и устанавливать с текстом связи верхнего уровня. Недавно было показано, что эти впечатляющие модели обучения можно быстро настроить для решения задач верхнего уровня, таких как анализ настроения, обнаружение дубликатов вопросов и других когнитивных задач на основе текста. Тонкая настройка, или дополнительное обучение модели на каком-то отдельном наборе данных/задаче по сравнению с той, на которой модель обучалась изначально, позволяет лишь слегка изменить параметры сети для новой задачи. Чаще всего это приводит к лучшей производительности и более быстрому обучению, чем если бы та же модель была обучена с нуля на том же наборе данных и задаче.

Преимущества трансформеров:

отлично справляются с последовательными данными. Благодаря этому они работают как система кодирования-декодирования, в которой вначале данные при помощи кодировщика мапируются в репрезентативное пространство. Затем на выходе они мапируются уже декодером. Благодаря этому они хорошо масштабируются на аппаратные средства параллельной обработки, такие как GPU-процессор, который является сверхмощным инструментом для программного обеспечения ИИ;
предварительно обученные трансформер-модели могут быть разработаны для быстрого выполнения соответствующих задач. Они уже глубоко понимают язык, и это позволяет сосредоточиться на обучении любой цели, которую вы ставите перед собой. Например, распознавание именованных объектов, генерация языка, концептуальная направленность. Предварительное обучение делает модели крайне универсальными и способными;
получение функциональности «из коробки». Тонкая настройка предварительно обученных трансформер-моделей позволяет добиться высокой производительности без огромных инвестиций. Для сравнения, чтобы достичь тех же показателей производительности, обучение с нуля займет больше времени и потребует на порядки больше вычислений и энергии;
оптимизация анализа настроений. Трансформер-модели позволяют настроить крупномасштабную языковую модель, обученную на огромном объеме текста (например, полное собрание сочинений Шекспира) для решения конкретной концептуальной задачи, выходящей далеко за рамки простого «чтения», например, анализа настроений и даже предиктивного анализа. Это, как правило, приводит к значительно более высокой производительности, поскольку предварительно обученная модель уже очень хорошо понимает язык, и ей остается только выучить конкретную задачу, а не пытаться одновременно выучить и язык, и задачу.

С момента своего появления трансформеры де-факто стали стандартом для таких задач, как ответы на вопросы, генерация языка и именованных объектов. Хотя будущее предсказать трудно, когда речь идет об ИИ, разумно предположить, что эти модели будут находиться под пристальным вниманием. Наиболее значимой, вероятно, является их способность позволить моделям машинного обучения не только приближаться к тонкостям чтения, которые улавливает человек, но и превосходить его на многих уровнях — далеко за пределами просто количества и скорости.

Печать Печать без изображений

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Трансформер-модели — оптимальный выбор для NLP

Дилан Фокс

Преимущества трансформеров:

Комментарии