Ричард Кидд, руководитель отдела химических данных британского Королевского химического общества, объясняет на портале Information Age важность бизнес-кейсов для анализа текстов и данных.

Мы живем в начале эпохи реализации неограниченного потенциала цифровых технологий. Достижения в области искусственного интеллекта и машинного обучения привели нас к тому, что впервые в истории человечества мы можем существенно расширить возможности исследовательской группы, развернув компьютеры для выполнения некоторых работ за нас.

Однако чтобы по-настоящему реализовать возможности, предоставляемые «кремниевым мозгом», мы должны убедиться, что человеческий элемент этого нового исследовательского инструмента понимает возможности, которые тот предлагает, и может их осмысленно сформулировать на этапе как подготовки, так и применения самого инструмента.

По-настоящему «умный» компьютерный мозг, который мы имеем сегодня, появился в результате стремительного развития технологии. До совсем недавнего времени возможности ИИ в основном ограничивались такими областями, как игры и довольно простые чатботы, и многие из нас были скептически настроены в отношении ближайших перспектив использования этих технологий в научной среде. Но скорость их развития оказалась столь высока, что они очень быстро превратились из полезных средств решения вполне ординарных задач в чрезвычайно мощные инструменты для продвижения идей и инноваций.

И это, возможно, объясняет, почему у нас остается пробел в знаниях, когда речь заходит о практическом применении этих инструментов.

Их общие преимущества применительно конкретно к анализу текстов и данных очевидны — используя компьютеры для изучения десятков тысяч научных работ одновременно по всем дисциплинам, мы можем выявить зацепки для дальнейших исследований и устранить расточительные затраты времени, которых не избежали бы даже большие команды людей. Это потрясающая возможность находить ответы на вопросы, интересующие ученых — даже без учета экономии затрат.

С технической точки зрения у нас есть хорошее понимание того, как развернуть эти инструменты и как из запрограммировать, чтобы получить ответы, которые мы ищем.

Однако именно между этими аспектами и возникают трудности. Насколько точно вы формулируете бизнес-кейс для анализа текстов и данных, если вы не знаете точно, что вы получите? Многие просто безоглядно доверяют инструментам. Это вопрос психологии.

Важно помнить, что в исследованиях ничего не гарантировано. И не важно, делает ли работу человек или компьютер. Существуют основные принципы, которые помогут вам сузить поиск, но вы не можете гарантировать, что ответ, который вы получите, будет тем ответом, который вы хотите получить. Компьютер просто найдет ответы гораздо быстрее. Понимание этого и принятие такого менталитета является ключом к преодолению одного из основных барьеров, создаваемых людьми на пути ускоренного развития цифровых технологий.

Существует еще один серьезный барьер — и возможно более важный для формирования заданий на исследования. В течение многих лет ученые в области вычислительной техники закрепляли мантру GIGO (garbage in, garbage out —"мусор на входе, мусор на выходе"). И на то есть веские основания. Задавая правильные вопросы, вы, скорее всего, получите нужные вам ответы. Не менее важно задавать правильные вопросы применительно к правильным данным — чем выше качество исходного материала, тем больше шансов найти нужные ответы.

Этот сам по себе фундаментальный научный принцип подчёркивает важность того, что не надо спешить с разработкой задания, а стоит сесть с кем-то, кто понимает и язык науки, и язык вычислений (будь то один человек или два), и дополнить содержание задания таким образом, чтобы не только улучшить результаты вашего проекта с цифровой точки зрения, но и создать надёжный фундамент исследования, когда команда будет иметь ясное представление о том, какого рода находки принесет им проект по анализу текста и данных.

Со временем этот процесс может стать еще более тонким и позволить еще больше интегрировать цифровые технологии и научные принципы, помогая нам по-настоящему реализовать невероятный потенциал ИИ и машинного обучения.