T-ECD (T-Tech E-commerce Cross-Domain Dataset)

Продукт
Разработчики: Т-Технологии (ранее ТКС Холдинг)
Дата премьеры системы: 2025/09/26
Отрасли: Интернет-сервисы,  Торговля
Технологии: Big Data

Основные статьи: Большие данные (Big Data)

2025: Публикация датасета T-ECD в открытом доступе

Центр искусственного интеллекта группы «Т-Технологии» выложил в открытый доступ T-ECD (T-Tech E-commerce Cross-Domain Dataset) - один из крупнейших в мире датасетов для рекомендательных систем в области электронной торговли. T-ECD собран на основе анонимизированных действий 44 миллионов уникальных пользователей сервисов Город: Шопинг и Супермаркеты, а также рекламной платформы Т-Банка, 30 миллионов товаров и более 135 миллиардов взаимодействий, сообщили представители «Т-Технологий» 26 сентября 2025 года.

T-ECD

По информации компании, датасет содержит информацию по 44 миллионам уникальных пользователей, 30 миллионам товаров и более 135 миллиардам взаимодействий. Данные собраны с глубиной от 1 года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей.

Отличительные возможности T-ECD: кросс-доменность и универсальность для решения разных типов задач. Бенчмарк состоит из пяти взаимосвязанных и полностью анонимизированных источников данных: история покупок по транзакциям, чеки, отзывы, взаимодействие с рекомендациями по товарам повседневного спроса (FMCG) и непродовольственных товаров, история активаций и использования специальных предложений и кэшбэков. Все источники данных можно использовать как самостоятельные датасеты, так и связывать их по ключам пользователей, товаров или брендов магазинов, что позволяет строить полные профили поведения и анализировать сложные сценарии для персонализации. Датасет подходит для большинства типов рекомендательных задач – рекомендации одного следующего объекта (next-item), следующей корзины (next-basket), следующей сессии (session-based), общих топ-N рекомендаций и других типов задач.    Данные собраны с глубиной  от 1 года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей, динамику их изменения, а также сезонность и тренды. Фактор глубины данных крайне важен для исследований, поскольку позволяет делать корректные разбивки на данные для обучения моделей и дает возможности в разы повышать качество рекомендаций при использовании глубоких нейронных сетей.«Диасофт» и «Центр «РИС» подтвердили безопасность решения Digital Q.ERP 12.4 т

Датасет содержит информацию по признакам пользователей и товаров, явную (explicit) и неявную (implicit) обратную связь пользователей, что делает его универсальным и открывает возможности для проведения исследования по полному охвату классов и типов рекомендательных систем – от коллаборативной фильтрации до более сложных контекстных и графовых подходов для использования глубокого обучения. В академических датасетах зачастую есть данные только о содержательных действиях пользователей: клики, покупки, лайки и др, но нет данных о просмотрах (так называемые "impressions"). При этом для бизнеса важнее знать, что пользователям показывала рекомендательная система. Это помогает точнее понимать, что пользователи увидели, но никак не отреагировали. T-ECD содержит данные не только о фактах просмотров, но и уточняет источник –  поиск, каталог или рекомендации, что позволяет оценивать влияние рекомендаций на пользователей или моделировать эффект воздействия.

T-ECD решает одну из главных проблем сообщества – большинство существующих датасетов для рекомендательных систем устарели и не отражают актуальное поведение пользователей и взаимодействия с современными сервисами и платформами.

С помощью T-ECD исследователи и разработчики получают бенчмарк на основе реальных предпочтений и паттернов поведения пользователей, что позволяет проверять различные алгоритмы машинного обучения на максимально приближенных к реальным рабочим данным, и повышает доверие к результатам экспериментов.

«
Мы с командой считаем важным вносить вклад в развитие открытых датасетов и моделей для дальнейшего развития рекомендательных систем. Датасет T-ECD может стать одним из бенчмарков и принести ценность ML-сообществу для оптимизации качества персонализации и клиентского опыта реальных пользователей.
рассказала Марина Ананьева, руководитель направления рекомендательных систем в Т-Банке
»

Датасet T-ECD доступен на Hugging Face под лицензией Apache 2.0, разрешающей свободное коммерческое использование и модификацию.



Подрядчики-лидеры по количеству проектов

За всю историю
2023 год
2024 год
2025 год
Текущий год

  БизнесАвтоматика НПЦ (123)
  Большая Тройка (46)
  Сбербанк (16)
  Умная Логистика (14)
  Доверенная среда (13)
  Другие (610)

  БизнесАвтоматика НПЦ (4)
  РИР (Росатом Инфраструктурные решения) (3)
  CM.Expert (АвтоЭксперт) (2)
  Сбер Бизнес Софт (2)
  Департамент информационных технологий Москвы (ДИТ) (2)
  Другие (60)

  БизнесАвтоматика НПЦ (6)
  Сбер Бизнес Софт (3)
  Университет Иннополис (2)
  TData (ТДата) (2)
  Наносемантика (Nanosemantics Lab) (2)
  Другие (75)

  БизнесАвтоматика НПЦ (7)
  GlowByte, ГлоуБайт (ранее Glowbyte Consulting, ГлоуБайт Консалтинг) (6)
  Цифровые технологии и платформы (ЦТиП) (3)
  Ростелеком (3)
  Цифра (2)
  Другие (94)

  Ростелеком Центр (ЦентрТелеком) Макрорегиональный филиал (1)
  Т1 (1)
  Триафлай (1)
  Другие (4)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2023 год
2024 год
2025 год
Текущий год

  БизнесАвтоматика НПЦ (3, 122)
  Большая Тройка (2, 46)
  Умная Логистика (2, 14)
  Триафлай (1, 14)
  Цифра (2, 12)
  Другие (321, 168)

  РИР (Росатом Инфраструктурные решения) (3, 4)
  БизнесАвтоматика НПЦ (1, 4)
  Сбербанк (2, 2)
  DataCatalog (ДатаКаталог) (1, 2)
  Цифра (1, 2)
  Другие (17, 18)

  БизнесАвтоматика НПЦ (1, 5)
  Сбербанк (3, 3)
  DataCatalog (ДатаКаталог) (1, 3)
  Luxms (1, 3)
  TData (ТДата) (1, 2)
  Другие (19, 22)

  БизнесАвтоматика НПЦ (1, 7)
  РИР (Росатом Инфраструктурные решения) (2, 2)
  Data Sapience (Дата Сапиенс) (1, 2)
  Цифра (1, 2)
  DataCatalog (ДатаКаталог) (1, 2)
  Другие (11, 12)

  Триафлай (1, 1)
  Другие (0, 0)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2023 год
2024 год
2025 год
Текущий год

  Visary BI Платформа бизнес-аналитики - 122
  Большая Тройка: АИС Редактор территориальных схем - 39
  Триафлай BI-платформа - 14
  ZIIoT Платформа для работы с промышленными данными - 12
  Luxms BI - 11
  Другие 161

  Visary BI Платформа бизнес-аналитики - 4
  ZIIoT Платформа для работы с промышленными данными - 2
  CM.Expert Data Mining платформа - 2
  Росатом Цифровое теплоснабжение - 2
  Arenadata Catalog - 2
  Другие 17

  Visary BI Платформа бизнес-аналитики - 5
  Luxms BI - 3
  Arenadata Catalog - 3
  Retail Rocket: Smart Placement Ads - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Другие 16

  Visary BI Платформа бизнес-аналитики - 7
  Luxms BI - 2
  Data Ocean Nova Платформа данных - 2
  ZIIoT Платформа для работы с промышленными данными - 2
  Arenadata Catalog - 2
  Другие 11

  Триафлай BI-платформа - 1
  Другие 0