Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Идеи и практики автоматизации: Статьи Новости компаний Решения

Панорама

СУБД ЛИНТЕР СОКОЛ: Будьте готовы к нагрузкам будущего уже сегодня!

Пока многие разработчики борются с наследием старого кода, мы создали будущее с чистого листа. На конференции …

Игорь Буторин: «Собственная архитектура — это форма технологической независимости IT-сектора в России»

Разработчик архитектурного коммуникационного ядра, которое применялось при разработке продуктов для разных сегментов рынка …

Как получить финансовый контроль над ИТ: интеграция ITSM+ITAM

ИТ-отдел работает как часы: заявки обрабатываются быстро, доступность услуг высокая, пользователи довольны. Но каждый …

Молодой хостинг VS старый рынок: как UFO.Hosting использует свой возраст как преимущество

Хостинг — одна из тех ниш, где внешне мало что меняется. Даже несмотря на то, что это IT и технологии …

Мариус Малышев: «Без понимания инфраструктуры код просто не дойдет до пользователя»

Инженер, прошедший путь от строительства дата-центров до финтех-разработки, — о том, почему в эпоху Edge …

Новый инструмент беспристрастно анализирует данные

Ребекка Кутцер-Райс | 30.12.2011

Новый алгоритм автоматически выявляет взаимосвязи между переменными, уменьшая эффект предвзятости исследователя.

Анализ данных — сегодня одна из важнейших задач компаний. Распространение технологий социальных сред привело к небывалому росту объемов данных, и исследователи напряженно работают над эффективным анализом информации. Значительную, но потенциально опасную роль в анализе данных играют знания и личная предвзятость пользователя. Однако сегодня разрабатывается новый инструмент, призванный помогать выявлению связей между переменными величинами без участия исследователей.

Большинство математических взаимосвязей — например, при каких условиях возникают вспышки заболеваемости — требуют определенных знаний и догадок о вероятных ассоциациях. Например, ученый может сделать предположение, что вспышка сальмонеллеза вызвана поставками зараженных яиц. Однако подобные предположения зачастую приводят к ложным результатам. Группа исследователей из Массачусетского технологического института (MIT), Гарварда и научного центра Broad Institute разработала метод, удаляющий такую предвзятость из анализа данных.

Группа работает над алгоритмами, позволяющими выявлять все взаимосвязи в наборе данных, принимая во внимание “шум”. Например, на диаграмме зарплаты работников “шумом” могут быть премии и выплаты сверхурочных.

“Я начал с попытки осмыслить ряд объемных массивов данных эпидемиологии, и поскольку я не эпидемиолог, я заранее не знал, что именно надо искать, — говорит Дэвид Решеф, докторант Отдела медицинских наук и технологий при Гарвардском университете и MIT. — Я просто хотел понять, между какими переменными в этих массивах данных имеются наибольшие зависимости. По собственной наивности я недопонимал, насколько был сложен поставленный вопрос”.

Для решения проблемы Решеф разработал алгоритм, графически отображающий все переменные массива данных в зависимости от других переменных. Далее алгоритм совмещает зависимости для оценки степени взаимосвязи переменных.

В основе этого подхода лежит идея, что если в данных присутствует системность, то должен быть какой-то способ гриддинга (приведения данных к узлам сетки), который может ее уловить, говорит Решеф. Алгоритм работает не только с прямолинейными графиками, но и с кривыми, то есть позволяет анализировать любые типы взаимосвязей.

Такие алгоритмы в итоге можно будет использовать для исключения из анализа предвзятости исследователя. Если ученый, например, предполагает, что вспышка заболевания вызвана загрязнением воды, он нередко игнорирует другие переменные факторы, скажем, продукты питания или погодные условия. Новый алгоритм поможет выявлять в наборах данных менее вероятные зависимости.

Эти исследования опубликованы в журнале Science . Видео с демонстрацией нового инструмента находится здесь.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Новый инструмент беспристрастно анализирует данные

Комментарии