МТС Web Services (MWS) сообщила о запуске первого в России сервиса для автоматического описания данных, накопленных компаниями — MWS Data Scout. Сервис является частью платформы MWS Data и представляет собой AI-агента, в основе которого лежит большая языковая модель (LLM). Он парсит (просматривает) все базы данных (БД) компании и формирует краткое описание того, что в них находится и как они связаны между собой. Это позволяет ускорить процесс описания данных в 10 раз и сэкономить компаниям десятки миллионов рублей. Таким образом, MWS первой вышла на рынок автоматизации описания данных объемом более 3,5 миллиарда рублей.
AI-агент может подключиться к ИТ-системам компании как и из облака, так и из защищенного контура клиента. Решение интегрируется со всеми популярными дата-каталогами, такими как DataHub, OpenMetadata, а также дата-каталогом от MWS. AI-агент может проанализировать, как таблицы связаны между собой, какие в них хранятся данные и определить другие их характеристики. Например, если столбец таблицы подписан как «Выручка», AI-агент опишет, по какой методике она рассчитывалась, округленные ли это цифры, если это «Сумма сделки» — то подписывается, в какой валюте она указана, до налогообложения или после.
Также сервис может выявлять, в каких базах данных хранится критическая информация, такая как паспортные данные (номер, серия, дата выдачи), персональные данные (ФИО, место жительства, телефон), банковские данные (pin, cvv, имя держателя). Это важно для соблюдения требований законодательства о защите персональных данных, повышения информационной безопасности и предотвращения утечек чувствительной информации
На первом этапе AI-агент получает мета-данные (общие сведения о том, как называются таблицы и столбцы в них), а также подключается к Confluence компании, где также могут храниться дополнительные сведения о БД. Это позволяет сервису получить более полное представление о структуре и назначении данных, повысить точность описаний и учесть бизнес-контекст, зафиксированный в документации. Далее AI-агент описывает сами таблицы и столбцы, находит критичные данные. После окончания анализа AI-агент предоставляет структурированный отчет с полным описанием всех обнаруженных таблиц, связей между ними и загружает результаты в дата-каталог.
В будущем AI-агент сможет строить пайплайны данных от поиска нужного источника (например, с мастер-данными) до дообогащения данных и доставки их до BI-систем или
«Компании традиционно накапливают огромное количество данных. Очень часто бывает, что вместо понятных обозначений столбцы в базах данных подписываются различными аббревиатурами, понятными лишь автору или аналитику, который с ними работал. А иногда даже верно подписанные данные без дополнительной информации о себе становятся бесполезными. MWS Data Scoutпозволяет аналитикам и дата-сайентистам быстрее находить нужную информацию, не тратить время на разбор таблиц вручную и не создавать дубликаты. Кроме того, за счёт использования сервиса снижается зависимость от отдельных сотрудников, ведь, когда знания о данных только в голове отдельного сотрудника, при уходе человека теряется контекст. Каталог помогает сохранить эти знания. Также AI-агент даёт понимание семантики: он описывает те характеристики данных, которые далеко не всегда можно подписать в базе. По нашим оценкам, использование MWS Data Scout может принести компаниям значительную экономию — от 50 млн рублей, которые раньше затрачивались на квалификацию данных и рутинные процессы обработки», — отметил директор по продуктам MWS Cloud Михаил Тутаев.