Авторы очередного отчета «State of AI» призывают «разработать метрики для оценки качества данных, усилить стимулы для повышения качества данных, улучшить образование в области данных, усовершенствовать практику раннего обнаружения каскадов данных и улучшить доступ к данным», сообщает портал ZDNet.

Состояние искусственного интеллекта многообещающее, и он все больше готов к использованию на реальных предприятиях. Этому препятствует нехватка специалистов, а также опасения по поводу качества данных, которые питают все более сложные алгоритмы.

Таковы некоторые из наблюдений Натана Бенаича и Яна Хогарта, известных инвесторов в области ИИ, которые выпустили свой четвертый ежегодный отчет о состоянии ИИ с обзором событий в этой области за последний год. Хотя в нем основное внимание уделено академическим аспектам ИИ и конкретным достижениям в медицине и других областях, также приведена важная информация для тех, кто стремится использовать ИИ и машинное обучение для продвижения вперед в создании интеллектуальных предприятий. «Нехватка ресурсов для согласования ИИ в ключевых организациях, продвигающих ИИ в целом, а также обеспокоенность по поводу наборов данных, используемых для обучения моделей ИИ, и предвзятости эталонных оценок моделей, поднимает важные вопросы о том, как лучше отслеживать прогресс систем ИИ с быстро развивающимися возможностями», — заявляют Бенаич и Хогарт.

Среди заметных событий в области ИИ за прошедший год можно отметить следующие:

  • ИИ в настоящее время является частью важных реальных сценариев, включая применение в критических инфраструктурах, таких как национальные электрические сети, автоматическая оптимизация складирования в супермаркетах, поиск новых лекарств и здравоохранение;
  • Transformer, архитектура глубокого обучения на основе нейронных сетей, стала архитектурой общего назначения для машинного обучения, которое все чаще применяется для обработки естественного языка (NLP) и компьютерного зрения;
  • среди других упомянутых разработок: развитие самоконтроля в компьютерном зрении, требующего меньшего обучения, и «бестекстовая» обработка естественного языка на основе генеративного моделирования разговорного языка (Generative Spoken Language Modeling, GSLM), которая позволяет «решать задачу обучения представлений речи непосредственно из необработанного аудио без каких-либо меток или текста»;
  • в этом году было зафиксировано рекордное финансирование стартапов в области ИИ, а также IPO компаний, занимающихся инфраструктурой данных и кибербезопасностью, которые помогают предприятиям перестроиться на работу в эпоху ИИ.

Кадры в области ИИ — это растущая проблема, а также область возможностей. «Занятость ученых, занимающиеся компьютерными исследованиями, разработчиков ПО, математиков, статистиков и специалистов по аналитическим данным значительно опережала в своем развитии занятость всего населения, — утверждают Бенаич и Хогарт. — Компьютерные науки и инженерия были самыми быстрорастущими степенями бакалавриата в период с 2015 по 2018 гг., составив 10,2% от всех четырехлетних степеней, присвоенных в 2018-м. За этот период их число увеличилось на 34 и 25% соответственно, в то время как число других присуждаемых степеней выросло в среднем на 4,5%». В глобальном масштабе Бразилия и Индия лидируют по росту занятости в сфере ИИ, нанимая сегодня в три с лишним раза больше специалистов в области ИИ, чем в 2017 г., что соответствует или превосходит рост найма в Канаде и США, добавляют они.

Венчурные капиталисты указывают на проблемы, связанные с управлением большими данными в сфере ИИ. «Тщательный отбор данных экономит время и деньги, смягчая головную боль, связанную с большими данными. Работа с огромными массивами данных громоздка и дорога. Тщательный отбор образцов помогает справиться большими объемами данных, концентрируя ресурсы на наиболее ценных образцах, но классические методы часто не работают в масштабе. Последние подходы решают проблему вычислительных затрат, позволяя отбирать данные на современных наборах».

Бенаич и Хогарт указывают на необходимость повышения качества данных, особенно в ситуациях реального времени, таких как обнаружение или прогнозирование событий, угрожающих жизни. Например, они приводят угрозу «каскадов данных», определяемых исследователями Google как «усугубление событий, вызывающих негативные, нисходящие эффекты из-за проблем с данными». Исследователи предупреждают, «что текущая практика недооценивает качество данных и приводит к каскадам данных», указывая на такие факторы, как «отсутствие признания специалистов по работе с данными в ИИ, отсутствие адекватного обучения, сложность доступа к специализированным данным для изучаемого региона/населения». Это требует «разработки метрик для оценки качества данных, усиления стимулов для повышения качества данных, улучшения образования в области данных, усовершенствования практики раннего обнаружения каскадов данных и улучшения доступа к данным».

Венчурные инвесторы также прогнозируют, что в следующем году может быть запущена исследовательская компания, ориентированная на ИИ общего назначения (AGI), «которая получит значительную поддержку и дорожную карту, ориентированную на вертикаль сектора, и которая потенциально может включать инструменты для разработчиков или приложения для биологических наук».