Новый алгоритм автоматически выявляет взаимосвязи между переменными, уменьшая эффект предвзятости исследователя.

Анализ данных — сегодня одна из важнейших задач компаний. Распространение технологий социальных сред привело к небывалому росту объемов данных, и исследователи напряженно работают над эффективным анализом информации. Значительную, но потенциально опасную роль в анализе данных играют знания и личная предвзятость пользователя. Однако сегодня разрабатывается новый инструмент, призванный помогать выявлению связей между переменными величинами без участия исследователей.

Большинство математических взаимосвязей — например, при каких условиях возникают вспышки заболеваемости — требуют определенных знаний и догадок о вероятных ассоциациях. Например, ученый может сделать предположение, что вспышка сальмонеллеза вызвана поставками зараженных яиц. Однако подобные предположения зачастую приводят к ложным результатам. Группа исследователей из Массачусетского технологического института (MIT), Гарварда и научного центра Broad Institute разработала метод, удаляющий такую предвзятость из анализа данных.

Группа работает над алгоритмами, позволяющими выявлять все взаимосвязи в наборе данных, принимая во внимание “шум”. Например, на диаграмме зарплаты работников “шумом” могут быть премии и выплаты сверхурочных.

“Я начал с попытки осмыслить ряд объемных массивов данных эпидемиологии, и поскольку я не эпидемиолог, я заранее не знал, что именно надо искать, — говорит Дэвид Решеф, докторант Отдела медицинских наук и технологий при Гарвардском университете и MIT. — Я просто хотел понять, между какими переменными в этих массивах данных имеются наибольшие зависимости. По собственной наивности я недопонимал, насколько был сложен поставленный вопрос”.

Для решения проблемы Решеф разработал алгоритм, графически отображающий все переменные массива данных в зависимости от других переменных. Далее алгоритм совмещает зависимости для оценки степени взаимосвязи переменных.

В основе этого подхода лежит идея, что если в данных присутствует системность, то должен быть какой-то способ гриддинга (приведения данных к узлам сетки), который может ее уловить, говорит Решеф. Алгоритм работает не только с прямолинейными графиками, но и с кривыми, то есть позволяет анализировать любые типы взаимосвязей.

Такие алгоритмы в итоге можно будет использовать для исключения из анализа предвзятости исследователя. Если ученый, например, предполагает, что вспышка заболевания вызвана загрязнением воды, он нередко игнорирует другие переменные факторы, скажем, продукты питания или погодные условия. Новый алгоритм поможет выявлять в наборах данных менее вероятные зависимости.

Эти исследования опубликованы в журнале Science . Видео с демонстрацией нового инструмента находится здесь.