Центр искусственного интеллекта группы «Т-Технологии» выложил в открытый доступ T-ECD (T-Tech E-commerce Cross-Domain Dataset) — один из крупнейших в мире датасетов для рекомендательных систем в области электронной торговли.
T-ECD собран на основе анонимизированных действий 44 миллионов уникальных пользователей сервисов Город: Шопинг и Супермаркеты, а также рекламной платформы Т-Банка, 30 миллионов товаров и более 135 миллиардов взаимодействий.
Отличительные особенности T-ECD: кросс-доменность и универсальность для решения разных типов задач. Бенчмарк состоит из пяти взаимосвязанных и полностью анонизимированных источников данных: история покупок по транзакциям, чеки, отзывы, взаимодействие с рекомендациями по товарам повседневного спроса (FMCG) и непродовольственных товаров (non-FMCG): бытовой техники, одежды, электроники, косметики, а также истории активаций специальных предложений и кэшбэков. Все источники данных можно использовать как самостоятельные датасеты, так и связывать их по ключам пользователей, товаров или брендов магазинов, что позволяет строить полные профили поведения и анализировать сложные сценарии для персонализации. Датасет подходит для большинства типов рекомендательных задач — рекомендации одного следующего объекта (next-item), следующей корзины (next-basket), следующей сессии (session-based), общих топ-N рекомендаций и других типов задач.
Данные собраны с глубиной от 1 года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей, динамику их изменения, а также сезонность и тренды. Фактор глубины данных крайне важен для исследований, поскольку позволяет делать корректные разбивки на данные для обучения моделей и дает возможности в разы повышать качество рекомендаций при использовании глубоких нейронных сетей.
Датасет содержит информацию по признакам пользователей и товаров, явную (explicit) и неявную (implicit) обратную связь пользователей, что делает его универсальным и открывает возможности для проведения исследования по полному охвату классов и типов рекомендательных систем — от коллаборативной фильтрации до более сложных контекстных и графовых подходов для использования глубокого обучения. В академических датасетах зачастую есть данные только о содержательных действиях пользователей: клики, покупки, лайки и др, но нет данных о просмотрах (так называемые «impressions»). При этом для бизнеса важнее знать, что пользователям показывала рекомендательная система. Это помогает точнее понимать, что пользователи увидели, но никак не отреагировали. T-ECD содержит данные не только о фактах просмотров, но и уточняет источник — поиск, каталог или рекомендации, что позволяет оценивать влияние рекомендаций на пользователей или моделировать эффект воздействия.
T-ECD решает одну из главных проблем сообщества — большинство существующих датасетов для рекомендательных систем устарели и не отражают актуальное поведение пользователей и взаимодействия с современными сервисами и платформами.
С помощью T-ECD исследователи и разработчики получают бенчмарк на основе реальных предпочтений и паттернов поведения пользователей, что позволяет проверять новые наилучшие на данный момент алгоритмы машинного обучения на максимально приближенных к реальным рабочим данным, и повышает доверие к результатам экспериментов.
Марина Ананьева, руководитель направления рекомендательных систем в Т-Банке, отметила: «Мы с командой считаем важным вносить вклад в развитие открытых датасетов и моделей для дальнейшего развития рекомендательных систем. Датасет T-ECD может стать одним из новых бенчмарков и принести ценность
Датасет T-ECD доступен на Hugging Face под лицензией Apache 2.0, разрешающей свободное коммерческое использование и модификацию.