Блокчейн Искусственный интеллект Open Source Интернет вещей Big Data/Аналитика Цифровая трансформация Инновации	Сети/Серверы/СХД/ЦОД ПК и периферия Мобильные решения Инфраструктура	Документооборот/ECM Идеи и практики автоматизации Промышленная автоматизация ИТ-менеджмент Автоматизация	Государство и ИТ ИТ-бизнес ИТ-индустрия	Облака	Безопасность
Сети/Серверы/СХД/ЦОД: Статьи Новости компаний Решения

Панорама

Дарья Богун: «Обучение IT и криптовалютам скоро станет повсеместным»

Недавно завершился престижный международный конкурса Cases and Faсes, где отбирают самые инновационные и технологичные …

Как получить финансовый контроль над ИТ: интеграция ITSM+ITAM

ИТ-отдел работает как часы: заявки обрабатываются быстро, доступность услуг высокая, пользователи довольны. Но каждый …

Мариус Малышев: «Без понимания инфраструктуры код просто не дойдет до пользователя»

Инженер, прошедший путь от строительства дата-центров до финтех-разработки, — о том, почему в эпоху Edge …

Как консалтинг помогает российскому бизнесу осваивать ИИ

Многие компании, внедряющие искусственный интеллект, не получают от него ожидаемой отдачи. Этот вызов стал стимулом для …

СУБД ЛИНТЕР СОКОЛ: Будьте готовы к нагрузкам будущего уже сегодня!

Пока многие разработчики борются с наследием старого кода, мы создали будущее с чистого листа. На конференции …

Полезный инструментарий для анализа веб-данных

Эдуард Пройдаков | 27.02.2009

Накопленные интернет-архивы предоставляют богатый материал для учёных в области общественных наук и экономистов, изучающих временную динамику социальных сетей и рынков. Однако размеры и сложность этих веб-данных как правило предъявляют высокие требования к их обработке. Учитывая это, Корнельский университет (США, шт. Нью-Йорк) разработал семейство программных инструментов для анализа данных. Эти средства являются частью проекта Web Lab, осуществляемого университетом, организацией Internet Archive и рядом других структур. Цель проекта подготовить большую часть архивов таким образом, чтобы ими могли воспользоваться исследователи, не являющиеся экспертами в вычислительной обработке больших объёмов данных.

Один из инструментов называется Web Lab Collaboration Server. Это сервис для крупномасштабного совместного анализа веб-данных. Он демонстрирует, как поддерживать нетехнических пользователей при поиске, извлечении и анализе веб-данных.

Центр по передовым вычислениям (Center for Advanced Computing, CAC) университета периодически через соединение сети TeraGrid Национального научного фонда (NSF) скачивает результаты работы спайдеров (пауков) хранящиеся в БД организации Internet Archive, расположенной в Сан-Франциско. Эти результаты по-английски именуются web crawls, что можно было бы перевести как текущие копии веба. В настоящее время загружено четыре таких полных снимка, содержащих миллиарды страниц.

Однако несмотря на богатство общедоступных данных существует три основных затруднения при создании эффективных и практичных приложений для их анализа:

настроенные для пользователя (кастомизированные ) наборы данных должны готовиться с помощью вручную модернизированных скриптов для извлечения данных;
наборы данных должны быть очищены или отформатированы (шаг часто бесполезно повторяемый различными пользователями);
программы анализа должны быть написаны с учётом преимуществ параллельной обработки, совместно используемой памяти или распределённой обработки и хранения.

Собственно для преодоления этих трудностей и предназначено решение Корнельского университета. Поскольку многие пользователи являются экспертами в областях, не связанных с компьютерными науками, для них был разработан простой и интуитивно понятный графический интерфейс пользователя для сложных задач извлечения и анализа данных, а так как задачи извлечения данных, их очистки и форматирования требуют много времени, то подготовленные для анализа наборы данных помещаются в центральный репозиторий и доступны одновременно многим исследователям. Наконец, для реализации проекта выбрана архитектура SaaS (“ПО как сервис”), что позволяет пользователям получать полностью распределённую обработку через удалённые сервисы. Для продвинутых пользователей разработан соответствующий API. Полное описание данного инструментария приведено в документе www.vldb.org/pvldb/1/1454205.pdf.

Печать

Мы используем cookie-файлы, возможности Яндекс.Метрики и SberAds для наилучшего представления нашего сайта в соответствии с Политикой обработки персональных данных. Если Вы согласны с этим, пожалуйста, нажмите кнопку «Принять». Продолжая пользоваться сайтом, Вы подтверждаете, что были проинформированы об использовании сайтом cookie-файлов, Яндекс.Метрики и SberAds, и согласны с Политикой обработки персональных данных.

Полезный инструментарий для анализа веб-данных

Комментарии