Хотя машинное обучение может показаться огромной и сложной задачей, создать инфраструктуру для проектов в этой области проще, чем многие думают, пишет главный технолог и член правления компании Exasol Матиас Голомбек на портале InformationWeek.

Машинное обучение (MО) приобрело значительное влияние на нашу повседневную жизнь. Домашний помощник Alexa от Amazon собирает и анализирует информацию, чтобы предугадывать наши потребности. Facebook рекомендует, кого взять в друзья. Есть приложения, которые защищают нас от мошенничества с кредитными картами и облегчают онлайновые покупки.

Организации, движимые стремлением сократить расходы, повысить свою стабильность и упростить операции, хотят, чтобы их данные выполняли для них тяжелую работу. Если прежде расходы на технологии MО воспринимались как излишние, сегодня они рассматриваются как инвестиции в будущее компании и как средство обеспечения конкурентоспособности.

Чтобы оставаться конкурентоспособными и успешными, организациям следует инвестировать в правильные технологии, а также разумно использовать уже имеющиеся знания и данные. Приводимые ниже советы помогут предприятиям оценить преимущества MО и извлечь максимум выгоды из имеющихся технологий.

Обеспечьте качество данных и их организацию

Чтобы алгоритмы MО выдавали обоснованные суждения и рекомендации по поводу бизнес-решений, базы данных должны всегда снабжать их чистыми, точными и детальными данными. Важно помнить, что больше данные не обязательно означает более качественные данные. Качество всегда стоит на первом месте. Если качество данных низкое, извлеченные из данных знания будут менее ценными, как и решения, принимаемые организациями на основе данных.

Согласно отчету 451 Research, 22% обследованных компаний уже включили алгоритмы MО в свои платформы управления данными, а 42% планируют включить в течение 12 ближайших месяцев. Такой сдвиг в инвестициях, их ориентация на обеспечение возможно более высокого качества данных, а не на простое забрасывание сети как можно шире, свидетельствует о резких переменах в отрасли. Менее десяти лет назад сервисы и инструменты целенаправленной подготовки качественных данных были нишевыми и слабо использовались компаниями, обладающими большим объемом данных. Сегодня они занимают первые строчки в планах высшего руководства.

Поскольку MО продолжает развиваться, организациям следует обеспечить поддержку своих специалистов по данным и вложить средства в технологии, необходимые для работы алгоритмов MО. Если у специалистов по данным не будет требуемых ресурсов, полученный ими импульс начнет слабеть. Организации должны иметь высококачественные базы данных. Это первый шаг в подготовке к включению MО в бизнес-процессы.

Освойте Python

У многих организаций главным мотивом инвестиций в MО является предсказательная аналитика, успех которой зависит от того, насколько специалист по данным владеет соответствующим языком программирования. А как можно чем-то овладеть? Изучать, экспериментировать и учиться у других.

В этом отношении выделяется Python, один из самых популярных языков программирования в мире, согласно Tiobe Index. Широкое распространение он получил главным образом благодаря своей простоте, читаемости человеком, универсальности и гибкости. Миллионы людей в мире изучают и используют этот язык, все активнее обмениваются друг с другом программами, советами и алгоритмами. Сеть пользователей Python предоставляет организациям, надеющимся поэкспериментировать с этим языком и использовать его, огромный легкодоступный учебный материал.

В конечном итоге, главным является наличие базовой инфраструктуры данных, которую любой сотрудник независимо от того, из какого он подразделения, может использовать для ввода и извлечения данных. Специалисты по бизнес-аналитике, как правило, будут использовать SQL. Однако для достижения успеха специалисты по данным должны иметь возможность запускать скрипты, написанные на предпочтительном языке, особенно на Python. Такая стандартизация и демократизация данных означает, что организации могут более творчески и экспериментально применять MО в любом бизнес-подразделении.

Преимущества гипермасштабируемого облака

Хотя инфраструктура ЦОДа допускает развертывание множества систем с открытым кодом для создания решений MО, организации часто не располагают вычислительной мощностью и возможностями масштабирования для их поддержки. Если рассматривается предложение об использовании MО в каком-либо проекте, хорошим решением может стать гипермасштабируемое облако, поскольку оно предоставляет любую необходимую вычислительную мощность GPU, что способно резко ускорить процесс обучения алгоритма глубокого обучения.

Когда возникает необходимость перейти от пакетной аналитики к аналитике в реальном времени, поток релевантных данных должен идти в ногу с алгоритмами MО в близком к реальному времени. Важно, чтобы рабочие нагрузки поддерживались на всех этапах жизненного цикла проекта и чтобы организации имели возможность экспериментировать с MО. Это обеспечивается эластичностью облака.

Организациям стало легко использовать облака, поскольку все три крупнейших облачных провайдера, AWS, Google и Amazon, борются за возможность делать бизнес на MО. Несмотря на это, организации отстают в использовании эластичной масштабируемости облаков для извлечения пользы из своих данных с помощью MО.

Хотя MО может казаться огромной и сложной задачей, создать инфраструктуру для проектов в этой области проще, чем думают многие организации. В действительности большинство из них уже применяют такие технологии, как базы данных, языки программирования и IaaS, необходимые для того, чтобы заложить основы оптимизации на базе MО.