| Разработчики: | Т-Технологии (ранее ТКС Холдинг) |
| Дата премьеры системы: | 2025/09/26 |
| Отрасли: | Интернет-сервисы, Торговля |
| Технологии: | Big Data |
Основные статьи: Большие данные (Big Data)
2025: Публикация датасета T-ECD в открытом доступе
Центр искусственного интеллекта группы «Т-Технологии» выложил в открытый доступ T-ECD (T-Tech E-commerce Cross-Domain Dataset) - один из крупнейших в мире датасетов для рекомендательных систем в области электронной торговли. T-ECD собран на основе анонимизированных действий 44 миллионов уникальных пользователей сервисов Город: Шопинг и Супермаркеты, а также рекламной платформы Т-Банка, 30 миллионов товаров и более 135 миллиардов взаимодействий, сообщили представители «Т-Технологий» 26 сентября 2025 года.
По информации компании, датасет содержит информацию по 44 миллионам уникальных пользователей, 30 миллионам товаров и более 135 миллиардам взаимодействий. Данные собраны с глубиной от 1 года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей.
Отличительные возможности T-ECD: кросс-доменность и универсальность для решения разных типов задач. Бенчмарк состоит из пяти взаимосвязанных и полностью анонимизированных источников данных: история покупок по транзакциям, чеки, отзывы, взаимодействие с рекомендациями по товарам повседневного спроса (FMCG) и непродовольственных товаров, история активаций и использования специальных предложений и кэшбэков. Все источники данных можно использовать как самостоятельные датасеты, так и связывать их по ключам пользователей, товаров или брендов магазинов, что позволяет строить полные профили поведения и анализировать сложные сценарии для персонализации. Датасет подходит для большинства типов рекомендательных задач – рекомендации одного следующего объекта (next-item), следующей корзины (next-basket), следующей сессии (session-based), общих топ-N рекомендаций и других типов задач.
Данные собраны с глубиной от 1 года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей, динамику их изменения, а также сезонность и тренды. Фактор глубины данных крайне важен для исследований, поскольку позволяет делать корректные разбивки на данные для обучения моделей и дает возможности в разы повышать качество рекомендаций при использовании глубоких нейронных сетей.«Агропромкомплектация» сократила капитальные вложения в ИТ. CIO компании на TAdviser SummIT — о том, к чему это привело
Датасет содержит информацию по признакам пользователей и товаров, явную (explicit) и неявную (implicit) обратную связь пользователей, что делает его универсальным и открывает возможности для проведения исследования по полному охвату классов и типов рекомендательных систем – от коллаборативной фильтрации до более сложных контекстных и графовых подходов для использования глубокого обучения. В академических датасетах зачастую есть данные только о содержательных действиях пользователей: клики, покупки, лайки и др, но нет данных о просмотрах (так называемые "impressions"). При этом для бизнеса важнее знать, что пользователям показывала рекомендательная система. Это помогает точнее понимать, что пользователи увидели, но никак не отреагировали. T-ECD содержит данные не только о фактах просмотров, но и уточняет источник – поиск, каталог или рекомендации, что позволяет оценивать влияние рекомендаций на пользователей или моделировать эффект воздействия.
T-ECD решает одну из главных проблем сообщества – большинство существующих датасетов для рекомендательных систем устарели и не отражают актуальное поведение пользователей и взаимодействия с современными сервисами и платформами.
С помощью T-ECD исследователи и разработчики получают бенчмарк на основе реальных предпочтений и паттернов поведения пользователей, что позволяет проверять различные алгоритмы машинного обучения на максимально приближенных к реальным рабочим данным, и повышает доверие к результатам экспериментов.
| | Мы с командой считаем важным вносить вклад в развитие открытых датасетов и моделей для дальнейшего развития рекомендательных систем. Датасет T-ECD может стать одним из бенчмарков и принести ценность ML-сообществу для оптимизации качества персонализации и клиентского опыта реальных пользователей. рассказала Марина Ананьева, руководитель направления рекомендательных систем в Т-Банке
| |
Датасet T-ECD доступен на Hugging Face под лицензией Apache 2.0, разрешающей свободное коммерческое использование и модификацию.
