Заказчики: Московский кредитный банк (МКБ) Москва; Финансовые услуги, инвестиции и аудит Продукт: OpenMetadataВторой продукт: Kubernetes Третий продукт: PostgreSQL СУБД Дата проекта: 2023/04 — 2023/09
|
Технология: Data Quality - Качество данных
Технология: MDM - Master Data Management - Управление основными мастер-данными
Технология: Средства разработки приложений
|
Содержание |
2023: Внедрение каталога данных OpenMetadata
МКБ (Московский кредитный банк) внедрил каталог данных c открытым исходным кодом OpenMetadata. Его задача — упорядочить работу с данными, сделать ее более оперативной, а сами данные — более качественными, сообщили представители МКБ 16 ноября 2023 года. Внедрение решения, по оценкам специалистов банка, экономит порядка трети рабочего времени аналитиков.
Для банка данные самого разного характера — это основа для принятия решений, в том числе управленческих, создания рекомендательных систем, и, конечно, скоринга. И если эти данные недостаточно качественны (основные критерии здесь — правильность, актуальность и полнота), то решения могут быть неверными, а также запоздалыми — если на поиск нужных данных уходит слишком много времени (до 80% рабочего времени аналитиков). Эти две проблемы становятся все более и более серьезными по мере того, как бизнес развивается: объем данных растет, в связи с чем найти нужную информацию становится непростой задачей.
Кроме того, добавляется и тот факт, что информация о данных — метаданные — хранилась в банке разрозненно: в Confluence, Jira и других электронных таблицах. А находить оперативно нужные сведения могут аналитики, работающие с теми или иными данными. Поэтому уход такого ИТ-специалиста может привести к частичной потере экспертизы в определенном сегменте данных.
Чем поможет каталог?
По задумке МКБ, внедрение каталога данных поможет повысить уровень доверия к ним, упростит процесс поиска нужных данных, а также избавит от так называемых бесхозных данных, за качество и состояние которых никто не несет ответственность.
Еще один важный фактор — безопасность данных. Стопроцентной гарантии от утечек и утери данных не бывает, но необходимо минимизировать риски, для чего данные необходимо ранжировать по критичности, знать, где и как они хранятся и какими средствами обеспечивается их безопасность, какие сотрудники имеют к ним доступ, с каким уровнем привилегированности и так далее. Также в случае наступления нежелательного инцидента при наличии каталога будет понятно, какие блоки данных оказались скомпрометированы, что облегчит ликвидацию последствий.
Как выбирали решение
В текущих условиях, когда решения от крупных зарубежных производителей программного обеспечения (ПО) недоступны, создать каталог данных в банке можно двумя путями — либо разработать самостоятельно, либо воспользоваться готовым open source-решением. Самостоятельная разработка — очень затратный процесс с точки зрения времени и финансов. В случае с уже готовым open source-решением, со сложностями сопряжен сам процесс внедрения, интеграции с уже работающими информационными системами банка, ведь документация часто недостаточно подробна, а опытных внедренцев с нужной экспертизой на рынке может просто не быть.
В результате была выбрана открытая система каталогизации данных OpenMetadata. Любой каталог данных должен уметь подключаться к системам источников и считывать их метаинформацию. Это данные о данных — таблицы, структура таблиц, где эти таблицы лежать, название базы, название схемы, название таблицы. В идеальном состоянии — еще и комментарии. OpenMetadata это как раз делает умеет.28 мая министр цифрового развития Максут Шадаев выступит на TAdviser SummIT
Система может получать метаданные не только из баз данных, но также из систем для работы с потоковыми данными Apache Kafka, Apache Airflow, BI-систем.
Внедрение и сложности
Процесс внедрения системы занял два месяца и состоял из тестового и полномасштабного «боевого» внедрений. Изначально по соображениям безопасности было принято решение развернуть OpenMetadata не «тестовом полигоне», в контуре разработки. В качестве платформы для работы каталога OpenMetadata использовали Kubernetes, в качестве СУБД для хранения метаданных — PostgreSQL. В этом состояла особенность данного кейса внедрения такой системы — базовая документация каталога составлена для работы с MySQL. Кроме самой OpenMetadata, для нормальной работы каталога в МКБ также развернули такие системы, как Apache Airflow (для считывания метаданных из источников) и поисковая система Elasticsearch.
Основная сложность — это внедрение каталога данных в процессы банка, так как требуется перестройка процессов работы с данными и разработки. В работе используются разнородные системы. Например, разработка технического задания ведется в Сonfluence, но после его реализации аналитиком построенная таблица описывается также и в каталоге данных.
Каждому аналитику данных необходимо выделить время на поиск, разметку и описание своих данных в каталоге. Привить культуру управления данными и сформировать необходимые привычки — ключевая задача.
Результаты и эффективность
Каталог уже развернут и полноценно эксплуатируется в МКБ. К нему подключены 8 основных информационных систем банка: корпоративное хранилище данных, система ЦФТ-Банк, CRM и др. Процесс описания и разметки данных (наполнение каталога данных информацией) продолжается.
По отзыву МКБ, по сравнению с прежним форматом организации работы с данными, каталог уже успел продемонстрировать свои преимущества: экономия рабочего времени аналитиков уже составляет 32% (исследовалась работа по тем блокам данных, которые уже описаны в каталоге).
Что дальше
У МКБ на каталог данных большие планы. Планируется интеграция каталога данных с инструментом по контролю качества данных (DQ). И конечно, продолжает оставаться актуальной тема внедрения культуры управления данными и формирование необходимых привычек работы с ними у специалистов банка, — поделились представители МКБ. |