НовостиОбзорыСобытияIT@WorkРеклама
Big Data/Аналитика:
Как построить высокопроизводительное отказоустойчивое хранилище на недорогих компонентах
Резервное копирование данных является одним из базовых компонентов обеспечения корпоративной ИБ, который помогает …
От ITSM до ESM: почему архитектура данных платформы определяет успех масштабирования корпоративных сервисов
Компании, внедряющие ESM-подход — то есть расширяющие практики сервисного подхода в ИТ ITSM на HR …
15 мин на изменение логики продукта: как AI-ассистент Bercut помогает в интеграционных проектах
Одна из основных задач в ходе любого интеграционного проекта — настроить оптимальное взаимодействие данных …
Что такое «коробочная» SIEM и когда она нужна?
Системный аналитик «СёрчИнформ» Павел Пугач рассказывает, как облегчить выполнение требований закона по внедрению SIEM …
 

Информационно-поисковая система для бизнеса, которая может пригодиться в любой сфере

Юрий Николаев | 14.04.2022
Увеличить

Сергей Сафонов

Основатель ИТ-компании «Rockitwebdev» Сергей Сафонов рассказал о том, как разработать уникальную систему «с нуля» и получить признание в России и за рубежом

В наши дни бизнесу как никогда нужны новые открытия и инновационные решения в сфере IT. Каждая компания стремится адаптироваться под современные условия, оптимизировать и упростить внутренние процессы, приумножив свою выручку. Один из тех, кто помогает им в этом — Сергей Сафонов. Сергей разработал собственную информационно-поисковую систему для бизнеса, которая может пригодиться в любой сфере.

— Сергей, Вы со студенчества работаете над информационно-поисковыми системами. Как вам вообще пришла в голову идея этим заняться?

Впервые я задумался об этом, когда проходил стажировку в Российской академии наук, где много работал с Базами данных и Big data. Потом я увидел потребность в этих системах на своей первой работе в «Агентстве ВПС-мониторинг», которое занималось мониторингом СМИ. Люди вручную искали и обрабатывали огромное количество информации из газет, журналов, ТВ, радио, сайтов и новостных порталов. Я понимал, что существует серьезная проблема в работе над слабоструктурированной информацией, и ее решение сможет помочь в развитии многих областей. Это и замотивировало меня.

— Как работала Ваша первая информационно-поисковая система?

Система работала следующим образом: она в автоматическом режиме и без участия пользователя сканировала заданный пул источников, распознавала необходимые данные, делала разметку, присваивала метатеги и сохраняла в базу. Вся информация располагались на сетевом хранилище, а метаинформация о каждом файле находилась в базе данных. Благодаря такому подходу можно оперировать данными, хранящимися в различных форматах без четкой структуры с возможностью работы с оригиналом. Сейчас рассказываю, звучит как «дважды два», но за всем этим стоит огромная работа.

— Какая же?

Поскольку эта информационно-поисковая система уникальна, почерпнуть идеи было негде и все до мелочей приходилось продумывать самому. Кроме того, мне хотелось сделать максимально удобный интерфейс, который был бы интуитивно понятен каждому, что также довольно непросто.

— Информационно-поисковая система предназначена для «слабоструктурированных данных». Что это за данные? В чем сложность работы с ними?

Это данные, которые не имеют четкой структуры для понятной работы с ними, а также для их хранения. Например, информация в электронных письмах, файлы журналов, изображений, аудиофайлы и видеофайлы. С последними тремя работать особенно сложно.

Если мы имеем дело с одним типом данных, который представляет заданное и понятное количество полей, то это не вызывает трудностей: просто записать новую сущность в имеющуюся структуру, например, СУБД или таблицу Excel. Но трудности начинаются, когда этих типов данных становится очень и очень много. И все они разные и не соответствуют стандартной и строгой структуре таблиц и отношений между ними.

В нынешнем мире громадное количество данных, и их объем растет с каждым днем! По статистике цифровая информация удваивается каждые восемнадцать месяцев. Большая часть — это неструктурированные данные, и лишь около 5% — тем или иным образом структурированные. Существует даже такое понятие, как «Информационный взрыв» — постоянное увеличение скорости и объемов публикаций в масштабах планеты. Это определение появилось еще в 1964 году. Представьте, насколько эти масштабы увеличились сейчас. Работать с этим безумно интересно, потому я и занимаюсь этим.

— Да, цифры впечатляют. Как Ваши информационно-поисковые системы вообще влияют на работу сфер, для которых созданы?

Так же как влияет автоматизация процессов в любой сфере. Обработать огромное количество данных, ничего не пропустить и сделать из этого качественную аналитику вручную очень сложно. Система делает это автоматически — ищет, систематизирует и хранит информацию. Таким образом организации, например, могут повысить качество работы с большими данными, улучшить клиентский сервис, а также сэкономить время и финансы.

Все дело в том, что это действительно уникальные системы, аналогов которым на рынке не существует. Индустрия получила решение, которое смогло вывести работу со слабоструктурированными данными на новый уровень. Решились проблемы поиска в больших наборах данных: отсутствие жесткой структуры, табличного представления и представления метаданных в слабоструктурированных данных. Теперь можно автоматизировать многие процессы, которые раньше выполнялись вручную.

— Впервые Вы внедрили систему в «Агентство ВПС-Мониторинг». Как это повлияло на бизнес-процессы и какого результата получилось добиться?

Результаты очень вдохновили и меня, и директора компании. Система значительно улучшила бизнес-процессы. Благодаря тому, что работа с данными и медиаисточниками была автоматизирована, сотрудники тратили меньше времени на обработку материалов и смогли выполнять намного больший объем задач. Также аналитический модуль позволил компании в разы быстрее подготавливать отчеты для клиентов. В итоге у компании расширился штат, появилось больше клиентов и, соответственно, увеличилась выручка.

— Не сталкивались ли Вы с попытками копирования Вашей системы?

Пока не сталкивался, но, чтобы защитить свою разработку и избежать плагиата, а также для использования в различных сферах, я собираю документы на регистрацию авторских прав в Library of Congress и получение патента на некоторые решения.

— Где еще можно использовать Вашу систему?

Как я уже упомянул, данную систему я создавал с возможностью видоизменить ее под любую сферу, где она может быть необходима и полезна, поскольку не только мониторинг СМИ сталкивается с проблемой обработки данных. Под каждый запрос, сферу, компанию, по сути, создается новая система, адаптированная под те источники информации, которые необходимо обрабатывать, со своим индивидуальным аналитическим модулем и графическим интерфейсом.

К сожалению, многие компании, где была внедрена система, я назвать не могу в силу NDA, но среди них крупнейшие ритейлеры, европейские банки и консалтинговые компании. Результат каждого из внедренных проектов превзошел все ожидания заказчиков. Особенно хочется выделить стартап для горнодобывающей отрасли «MiningMD». Это информационный портал, созданный на базе информационно-поисковой системы для слабоструктурированных данных. Это поистине уникальный проект, на который я возлагаю огромные надежды. Данный проект создавался на основании реальных «болей», с целью разработки решения, покрывающего каждую из них. Поэтому, финального запуска всего функционала этого проекта очень ждут в профессиональной среде по всему миру.

— К слову о «MiningMD». Как информационно-поисковая система реализована там?

«MiningMD» гораздо больше, чем информационно-поисковая система. Да, она заложена в основе, но это целый портал, объединяющий в себе большое количество разделов и функций. Это проект с большой предысторией. Перед принятием решения о начале разработки было проведено множество исследований существующих решений, интервью с топовыми экспертами горнодобывающей отрасли, комплексный анализ информационного обмена в этой сфере. Сервис «MiningMD» мы создаем совместно с партнером, который имеет огромный опыт работы в горнодобывающей индустрии, занимается стратегическим развитием крупных компаний, разработкой методологий и моделей. Данный проект можно считать результатом интеграции технологических решений в моем лице и знаний горнодобывающей отрасли в лице моего партнера.

— Какие задачи решает эта система?

«MiningMD» будет освещать основные проблемы отрасли и консолидировать всю актуальную информацию в одном месте. Вся информация и аналитика станут доступными для широкого круга представителей горнодобывающей промышленности, можно будет получить справедливую независимую оценку рыночной аналитики и акций. Кроме того, горнодобывающая отрасль станет чаще взаимодействовать с современными ИТ-технологиями, которые смогут оптимизировать многие процессы.

— На какой стадии проект сейчас? Чем уже можете похвастаться и какого результата ждете?

Практически все модули платформы «MiningMD» уже реализованы, запустить сервис планируем в начале — середине 2023 года.

Мы уже провели первое тестирование и получили отличные отзывы. Особенно отмечали качественный интерфейс сервиса, его удобство, функциональность и наполненность. Горнодобывающая промышленность давно нуждалась в такой системе, поэтому сейчас ее с нетерпением ждут множество специалистов, от рядовых сотрудников до руководителей компаний. Мы надеемся, что эта платформа значительно упростит жизнь специалистам и добавит «прозрачности» в горной индустрии.

— А в каких еще сферах требуются качественные информационно-поисковые решения? Планируете ли Вы работать и с ними?

Моя информационно-поисковая система уже претерпела множество изменений и преобразований под нужды заказчиков. И я всегда открыт к сотрудничеству с новыми сферами и отраслями. Это могут быть любые организации, которые, например, работают с информацией и большими данными, или которым необходима качественная аналитика собственных данных компании, или же они хотят внедрить инновационные решения в свои технологические и бизнес-процессы.

— Как Вам удалось выйти на зарубежных заказчиков, и добиться такого признания международного профессионального сообщества?

Мне часто приходится общаться с коллегами из моей отрасли, состоять в различных сообществах разработчиков, чтобы оставаться в курсе современных технологий и решений, делиться своими наработками. Одно из таких сообществ, в котором я состою и принимаю активное участие — Ассоциация электронных коммуникаций (РАЭК). Миссия нашего кластера RPA — устранить рутину из жизни российских компаний и органов власти, автоматизировав все возможные процессы. И эта миссия мне очень близка! Для достижения этих целей я также открыл собственную ИТ-компанию Rockitwebdev, которая позволила осуществлять большее количество проектов и расти в сфере разработки и автоматизации. Так, работая с коллегами бок о бок, участвуя в совместных проектах, делясь своими результатами профессиональной деятельности, получаю доверие и признание профессионалов сферы ИТ. Конечно, приходится много трудиться, чтобы заслужить доверие действительно уважаемых профессионалов.

Также в этом году организаторы пригласили меня в Экспертный совет ежегодной Премии Рунета, как специалиста, участвующего в развитии ИТ-индустрии, что, несомненно, Премия Рунета — это старейший престижный конкурс отрасли. Награда вручается за вклад в развитие интернет-технологий в России и дает многим компаниям и проектам путёвку в жизнь и является знаком качества. Приглашение на конкурс в роли судьи, несомненно, очень почетно для профессионала моей сферы.

— Вы также активно занимаетесь освещением темы систем обработки и хранения данных в науке. Расскажите поподробнее о Ваших научных публикациях. Что уже удалось сделать, а что еще на стадии разработки?

Первые научно-исследовательские статьи и работы я начал делать, еще учась в бакалавриате, и продолжаю заниматься этим по сей день. У меня были исследования и несколько публикаций по «Системам массового обслуживания». Кстати, с этой тематикой связан один из моих будущих проектов. Я пока не готов поделиться его идеей, но, думаю, это будет очень интересно, полезно и прибыльно.

Также я продолжаю работать с данными и с Big Data в целом, изучать и разрабатывать новые методы работы с ними. Уже несколько моих научных статей находятся на рецензировании у ученых-коллег, и я очень надеюсь, что они успеют опубликоваться до конца 2022 года. Статьи освещают тематику темпоральных баз данных и реализации временных моделей для них. Это очень важная область для направления обработки информации, поскольку все данные так или иначе связаны с определенными датами или промежутками времени. Более того, в разные периоды времени информация об объекте или о чем-либо может быть разной, и часто очень важно сохранять в базах данных эту «историчность» информации. Ну и кроме того, недавно я начал углубленную работу в более широком направлении Big Data, у меня уже есть интересные наработки для статей, очень верю, что получится что-то стоящее.

Другие спецпроекты
ПечатьПечать без изображений

Комментарии

Только зарегистрированные пользователи могут оставлять комментарий.

Регистрация
Авторизация

ПОДГОТОВЛЕНО ITWEEK EXPERT

 
Интересно
Как построить адаптируемую платформу данных
Барри Грин, временный директор по данным компании Allianz Partners, рассказывает на портале Information Age о том …
Пять стратегий защиты и масштабирования потоковых данных в эпоху ИИ
Защита потоковых данных — это стратегический императив. Анил Инамдар, руководитель глобального отдела сервисов данных NetApp …
Как предприятия могут получать и использовать синтетические данные для ИИ
По мере ускорения внедрения искусственного интеллекта руководители предприятий сталкиваются со сложностями, связанными …
Агентный ИИ на подходе, но угонится ли за ним ваша инфраструктура данных?
Традиционная инфраструктура данных не справится с параллельными требованиями роев ИИ-агентов, пишет на портале The …
Четыре ключевых урока пандемии для будущего цифрового бизнеса
Чтобы преуспеть, технологические руководители должны усвоить четыре ключевых урока, которые преподала нам цифровая лихорадка …