IT One: OneData ETL-продукт по перемещению и интеграции данных в хранилищах

Продукт
Разработчики: Ит1-Холдинг (IT-One)
Дата премьеры системы: 2023/12/05
Технологии: MDM - Master Data Management - Управление основными мастер-данными

Основная статья: Управление данными (Data management)

2024: OneData – ETL-инструмент для эффективного управления данными

Согласно исследованию Центра стратегических разработок (ЦСР), российский рынок хранения данных после небольшого спада в 2022 году уже к 2023 году восстановился до уровня 67 млрд рублей, а к 2027 году вырастет до 170 млрд рублей. Особое место на этом рынке занимают системы ETL, обеспечивающие ключевые процессы формирования хранилищ данных (Data Warehouse, DWH): извлечение, преобразование и загрузку (Extract, Transform, Load). В связи с уходом из России ведущих западных вендоров компаниям приходится искать альтернативные инструменты ETL. Какие у них есть варианты и в чем уникальность решения OneData – рассказывает Александр Самойлов, менеджер продукта OneData компании IT_ONE, и Алексей Кулагин, руководитель Data-практики компании IT_ONE. Подробнее здесь.

2023: Разработка ETL-продукта для наполнения хранилищ данных

Компания IT_ONE (ООО «ИТ1-Технологии») разработала ETL-продукт по перемещению и интеграции данных в хранилищах – OneData. Данный фреймворк поддерживает большинство типов источников и приемников данных, высокую скорость развертывания и отличается простотой настройки. Об этом разработчик сообщил 5 декабря 2023 года.

Деятельность коммерческих компаний связана с генерацией огромных массивов данных. Для их размещения и обработки используются озера данных (Data Lake), сложные распределенные хранилища, аналитические системы и другие технологии. При этом важным процессом является регулярная актуализация и пополнение этих данных из внешних систем-источников, разнородных по типу взаимодействия с ними и по типу передаваемых данных. Догнать и перегнать: Российские ВКС прирастают новыми функциями 8.9 т

OneData оптимизирует деятельность ИТ-команд компаний-заказчиков, занимающихся наполнением хранилищ данных. Продукт – альтернатива западным проприетарным продуктам, многие из которых на декабрь 2023 года недоступны в России, а также продуктам на основе открытого ПО, которые могут не подходить заказчику по функциональности.

OneData состоит из четырех основных структурных компонентов: web-интерфейса конфигурирования, базы данных конфигураций потоков перемещения данных, сервиса обработки данных на базе Spark и оркестратора потоков на базе Apache Airflow. Решение поддерживает наиболее популярные в России источники и приемники данных. Например, оно работает с JDBC-источниками и брокером сообщений Apache Kafka, а в качестве приемников могут выступать файловые хранилища (HDFS, S3, FTP), JDBC, таблица Hive.

Работа в OneData происходит следующим образом. Администратор формирует конфигурацию потока перемещения данных, которая сохраняется в БД, и расписание запуска потока. В том же конфигурационном файле можно указать дополнительные настройки: например, количество ресурсов, которое будет запрашивать spark-процесс, преобразования типов полей и т. д. Параллельно происходит формирование DAG-файла и импорт его в Airflow для постановки потока на расписание. По расписанию происходит вызов Spark-процесса, который в соответствии с заданной конфигурацией осуществляет перемещение данных из источника в приемник. Использование Spark обеспечивает высокую скорость перемещения: эффективное распараллеливание, получение и запись данных.

Кроме того, при сохранении в файловую систему фреймворк поддерживает самые разные форматы файлов: orc, parquet, csv, json, deltalake. Чтение из Kafka может сопровождаться валидацией входящих json-сообщений по указанной json-схеме. Сообщения, не прошедшие валидацию фреймворк может бережно сложить в указанный DLQ-топик (Dead Letter Queue topic). Эти опции еще более расширяют функциональность продукта.

К числу плюсов данного решения относится его оперативное развертывание. Основной Spark-процесс можно запустить даже локально, но для использования всех плюсов рекомендуется Hadoop-кластер с YARN или Kubernetes-кластер. Конфигурация процессов перемещения данных может храниться в json-файлах или в любой доступной БД PostgreSQL. Оркестрация потоков осуществляется с помощью Airflow, который можно развернуть рядом или использовать уже имеющийся.

OneData прост в настройке, ее может осуществить даже специалист без навыков программиста или DevOps.

В соответствии с «дорожной картой» развития OneData, компания IT_ONE планирует дополнить продукт такими функциями, как маскирование данных, перенос изменений в метаданных, поддержка новых типов источников и приемников, автоматическая проверка консистентности перемещенных данных. Также готовится ряд технологических доработок, которые должны облегчить эксплуатацию фреймворка: это фиксация метрик работы потоков перемещения данных, интеграция с системами мониторинга и т. д.

«
Имея богатый опыт внедрения хранилищ и озер данных, в сложившейся на рынке ситуации мы почувствовали необходимость разработки собственного фреймворка перемещения данных. OneData способен радикально сокращать время и трудозатраты в таких задачах, как, например, наполнение Stage/ODS слоев, подключение новых источников данных к хранилищам или наполнение пользовательских песочниц. С каждым спринтом OneData становится всё более быстрым, удобным и совершенным, – сказал ведущий менеджер проектов IT_ONE Александр Самойлов.
»



СМ. ТАКЖЕ (1)


Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Datareon (Датареон) (234)
  Axelot (Акселот) (145)
  Цифра (31)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (24)
  АйТи Про (IT Pro) (21)
  Другие (258)

  Datareon (Датареон) (32)
  Axelot (Акселот) (24)
  Commvault (5)
  АйТи Про (IT Pro) (4)
  AnalyticsHub (АналитиксХаб) (2)
  Другие (35)

  Datareon (Датареон) (37)
  Axelot (Акселот) (32)
  Цифра (7)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (5)
  Софрос (Sofros) (4)
  Другие (21)

  Datareon (Датареон) (22)
  Axelot (Акселот) (15)
  Софрос (Sofros) (9)
  Naumen (Наумен консалтинг) (3)
  Нетрика Медицина (2)
  Другие (26)

  Первый Бит (2)
  Axelot (Акселот) (1)
  Datareon (Датареон) (1)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (1)
  Napoleon IT (Наполеон Айти) (1)
  Другие (6)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Datareon (Датареон) (2, 366)
  Цифра (2, 35)
  Axelot (Акселот) (1, 28)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (5, 25)
  Informatica (14, 21)
  Другие (278, 210)

  Datareon (Датареон) (1, 54)
  Commvault (2, 5)
  АйТи Про (IT Pro) (1, 4)
  ЮниДата (UniData) (1, 3)
  Цифра (1, 2)
  Другие (25, 25)

  Datareon (Датареон) (1, 67)
  Цифра (1, 7)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (3, 5)
  Axelot (Акселот) (1, 5)
  АСКОН (1, 2)
  Другие (14, 15)

  Datareon (Датареон) (1, 42)
  Axelot (Акселот) (1, 5)
  Naumen (Наумен консалтинг) (1, 3)
  Цифра (1, 3)
  Тандер Сеть магазинов Магнит (2, 2)
  Другие (15, 16)

  Datareon (Датареон) (1, 3)
  Цифра (1, 1)
  Altcraft (Альткрафт) (1, 1)
  Napoleon IT (Наполеон Айти) (1, 1)
  Наносемантика (Nanosemantics Lab) (1, 1)
  Другие (5, 5)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Datareon Platform - 366
  Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 35
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 28
  HFLabs Единый клиент - 22
  АйТи Про: BI.Qube - 18
  Другие 206

  Datareon Platform - 54
  Commvault Complete Data Protection - 4
  АйТи Про: BI.Qube - 4
  ЮниДата Платформа управления данными - 3
  Alation Data Catalog - 2
  Другие 27

  Datareon Platform - 67
  Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 7
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 5
  Полином:MDM - 2
  Platforma и HFLabs: Технология безопасного метчинга данных - 2
  Другие 17

  Datareon Platform - 42
  1С:MDM Управление нормативно-справочной информацией (1С:MDM Управление НСИ) - 5
  Цифра: Диспетчер Система мониторинга промышленного оборудования и персонала - 3
  Naumen Enterprise Search - 3
  N3.Управление НСИ - 2
  Другие 15

  Datareon Platform - 3
  Neuroniq.Platform Цифровая интеграционная платформа - 1
  HFLabs Единый клиент - 1
  Altcraft Platform - 1
  МТС DataOps Platform - 1
  Другие 5