Согласно недавнему опросу более 1300 специалистов-практиков в области машинного обучения, качество данных является самой большой проблемой, с которой сталкиваются команды МО при получении обучающих данных, сообщает портал AI Business.

Треть респондентов опроса «Zeitgeist: AI Readiness Report by Scale AI» заявили, что сталкиваются с проблемами качества данных, далее следуют вопросы сбора, анализа, хранения и версионирования. Эти проблемы необходимо решать, поскольку они оказывают значительное последующее влияние на МО-усилия, а команды часто не могут эффективно моделировать без качественных данных, говорится в отчете.

Команды MО заявили, что им трудно разобраться с объемом, сложностью и нехваткой данных. Особую проблему представляют неструктурированные данные. Практики считают, что подбор данных для своих моделей влияет на то, как быстро они могут развернуть свои MО-проекты. Без высококачественных данных команды не могут создавать надежные модели.

К факторам, влияющим на качество данных, относятся разноообразие, объем и шум. По данным опроса, 37% испытывают трудности с поиском разнообразных данных, необходимых для повышения производительности моделей. Те, кто работают с неструктурированными данными, испытывают наибольшие трудности с получением разнообразных данных для повышения производительности модели.

Поскольку большинство данных сегодня являются неструктурированными, команды МО должны иметь стратегию управления ими для повышения качества данных.

Команды МО, работающие с неструктурированными данными, чаще, чем те, кто работает с полуструктурированными или структурированными данными, сталкиваются с недостаточных количеством данных.

Большинство респондентов сообщили о проблемах с обучающими данными, причем наибольшую головную боль вызывает шум данных (67%), за которым следуют смещение данных (47%) и доменные пробелы (47%). Только 9% не сталкивались с подобными проблемами.

В отчете приводятся пять советов по разработке ИИ, ориентированного на данные, от соучредителя Google Brain Эндрю Нг:

  1. Делайте метки последовательными.
  2. Используйте консенсус-маркировку для выявления несоответствий.
  3. Разъясните инструкции по маркировке.
  4. Отбросьте зашумленные примеры (потому что больше данных не всегда лучше).
  5. Проведите анализ ошибок, чтобы сосредоточиться на подмножестве данных для улучшения.

Когда дело доходит до подготовки данных, самой большой проблемой является курирование данных (33%), за которым следует качество аннотирования (30%).

Курирование данных — удаление поврежденных данных, маркировка метаданными и выявление релевантных данных — имеет решающее значение для предотвращения траты времени и денег на аннотирование данных, которые в итоге могут оказаться непригодными для использования.

Аннотирование данных означает добавление контекста к необработанным данным для MО-моделей с целью получения прогнозов, и, согласно опросу, некачественное аннотирование приводит к «плохой» работе модели.

Одна из проблем при получении данных от внешних поставщиков услуг заключается в том, что они могут иметь данные не самого высокого качества, поэтому часто требуется ручной аудит.

Проблемой для большинства команд МО является масштабирование, причем 38% опрошенных назвали развертывание самым серьезным испытанием. При этом крупным компаниям сложнее выявлять проблемы в своих моделях.

Ключевая тенденция заключается в том, что организации, сосредоточившиеся на инфраструктуре аннотирования данных, могут быстрее переучивать существующие модели, развертывать новые модели и переходить к производству. Кроме того, команды MО могут ускорять развертывание моделей, сотрудничая с партнерами по аннотированию данных.

Около 73% опрошенных используют для своих проектов синтетические данные из-за неадекватности примеров граничных ситуаций на реальных данных, а также из-за юридических проблем или проблем конфиденциальности реальных данных.

После получения данных следующими этапами жизненного цикла MО являются разработка, развертывание и мониторинг модели. Надежная модель МО нуждается в расширении данных, многочисленных итерациях на наборе данных, сравнительном тестировании архитектур моделей и производственном тестировании.

Согласно отчету, большие сложности при разработке моделей вызывает инженерия функций. Она используется для создания моделей на структурированных данных для таких вещей, как рекомендательные системы и прогностические модели.