2015/02/15 07:00:00

Визуализация данных

Развитые средства визуализации данных стали неотъемлемой частью корпоративных BI-платформ. Некоторые вендоры, такие, например, как Tableau, именно визуализацию сделали краеугольным камнем своих аналитических систем. Тренд пронизывает рынок систем аналитики полностью: сегодня даже простейшие аналитические инструменты для конечных пользователей зачастую опираются именно на визуальное представление данных.

Каталог BI-решений и проектов доступен на TAdviser.

Содержание

Один из экспертов в области визуализации данных Эдвард Тафт (Edward Tufte) однажды сказал: «Мир является сложным, динамичным, многомерным, а бумага статичной и плоской. Как мы можем передать все богатство визуального представления об этом мире на этой равнине?». В действительности, развитые средства визуализации сегодня являются обязательным компонентов как промышленных BI-платформ, так и небольших аналитических решений для конечных пользователей.

Визуализация данных, по мнению экспертов Forrester[1], необходима компании в тех случаях, когда:

  • Невозможно увидеть паттерн, не прибегая к визуализации данных. Все потому, что традиционные отчеты, строки, колонки и таблицы не дают понимание общей картины в целом, что может привести к неверной интерпретации данных.

  • Когда значительные массивы данных невозможно разместить на одном экране. Как бы ни был мелок шрифт, сотни и тысячи строк данных на одном экране будут абсолютно не информативны в сравнении с визуальных представлением этой же самой информации. В своей книге The Visual Display of Quantitative Information[2] Эдвард Тафт приводит пример отображения 21 тыс. значений данных на карте США, поместившейся на одном экране.

  • Невозможно передать глубину данных посредством информации, представленной на одном экране. Например, в фармацевтике при анализе свойств тех или иных препаратов используются сотни различных психофизических параметров человека, охватить которые в линейном виде не представляется возможным. Однако медицинские эксперты присваивают каждому параметру разноцветные пиксели и помещают их в динамические модели, где любой участок при необходимости может быть увеличен и проанализирован детально.


Пример визуализации "Симфонии №5" Людвига Ван Бетховена

Многие компании на протяжении долгих лет эффективно используют такие простейшие средства визуализации данных как диаграммы и гистограммы, в дальнейшем развитие технологий визуального представления информации позволило сделать работу с ними более динамичной и обрабатывать сведения фактически в режиме реального времени. Развитая бизнес-графика включает в себя различные дэшборды и чарты, которые могут обновляться автоматически согласно заданным настройкам.


Пример визуализации: связи между темами докладов разных стран в рамках Всемирного экономического форума


Пример представления данных в виде дэшборда

Среди многообразия отдельных инструментов и систем с функциями визуализации данных Forrester Research также выделяет отдельно платформы продвинутой дата визуализации или ADV (advanced data visualization). Такие платформы обладают более развитыми средствами и обеспечивают более комплексное представление информации. Вот их главные определяющие отличия:

  • Динамический контент. Это означает, что визуальное представление информации изменяется по мере апдейта данных в базе. Статическая визуализация, которую можно создать в большинстве офисных программ, такой возможности не предоставляет.

  • Визуальные запросы. Это возможность запрашивать и перезапрашивать данные путем простого манипулирования частями графики или диаграмм (нажатием на кнопки, например, можно развернуть подробности) или специальных визуальных компонентов (выпадающих списков, владок и прочего).

  • Мультиданные. Типичные статические средства визуализации не могут связать и отобразить между собой более чем несколько параметров данных. В продвинутых платформах визуализации, напротив, учитываются множественные данные различных типов, прочно завязанные друг с другом, так что при обновлении какой-то части информация автоматически меняется на всех других панелях.

  • Анимированная визуализация. Некоторые параметры, например, время, могут иметь сотни и сотни значений, так что отслеживание общей картины для каждого параметра в отдельности может стать достаточно трудоемким заданием. В таких случаях на помощь приходит анимация, позволяющая запустить переход от параметра к параметру в автоматическом режиме.

  • Персонализация. То, что интуитивно понятно и необходимо одному пользователю, может совершенно не подойти другому. Кроме того, в большинстве компаний для защиты информации и минимизации рисков предусмотрены различные уровни доступа к корпоративным данным. Платформы ADV позволяют автоматически применять персональные настройки и предпочтения.

  • Использование оповещений. Мощные ADV платформы могут подавать сигнал, когда не в состоянии корректно обработать большие массивы данных. Или, например, сигнал подается в тот момент, когда найдено какое-то критическое значение, причем оповещение может подаваться в том числе с помощью электронной почты и текстовых сообщений.

Лидеры рынка платформ продвинутой визуалиации данных

Image:Forrester_Wave_data_visualization_2012.png

Forrester Research, 2012

По данным Forrester Research, к лидерам на рынке ADV платформ относятся такие компании как Tableau, IBM, Information Builders, SAS, SAP, Tibco, и Oracle. Решения этих вендоров предоставляют значительные возможности для визуализации, хорошо сбалансированные для создания различных запросов. Как с помощью EvaProject и EvaWiki построить прозрачную бесшовную среду для успешной работы крупного холдинга 2.4 т

Сильными игроками на этом рынке также являются Microsoft, MicroStrategy, Actuate Software, Qlik (QlikTech), SpagoBI и Panorama Software. Альтернативой мега вендорам также являются Jaspersoft и Pentaho, чьи решения можно использовать по подписке.

Как рассказал TAdviser эксперт Георгий Нанеишвили, директор по развитию партнерской сети Qlik, российские компании в качестве средств визуализации предпочитают традиционно таблицы – простые и сводные.
«Красивые графики хорошо показывать на презентациях, но в реальной работе для аналитиков критически важно моментально работать с огромным объемом информации, динамически накладывая фильтры и получая отчеты в табличной форме. Никак мы не уйдем от технологии анализа данных методом пристального взгляда. Да и чувствуется острый недостаток квалифицированных инфографов», - пояснил он.

Так что позволить себе действительно эффективное решение, которое одним взглядом позволят оценить сложившуюся ситуацию и исторические тренды, провести сравнительный анализ, геоанализ – могут позволить себе не так много российских компаний, полагает он.

Причем дело не том, что подобных решений нет: наоборот, на это ориентированы все современные BI-инструменты, а особо продвинутые позволяют это делать даже рядовым пользователям. Эксперт полагает, что пока еще нет понимания и достаточной квалификации у самих пользователей.

Прогноз по тенденциям в медицинской визуализации

В декабре 2017 года генеральный директор Ambra Health Моррис Паннер (Morris Panner) представил прогноз по технологическим тенденциям, которые, по его мнению, изменят медицинскую визуализацию в 2018 году. Подробнее здесь.

Визуализация больших данных

Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций. Казалось бы, ничего нового здесь придумать уже невозможно, но на самом деле это не так. В качестве иллюстрации приводим несколько прогрессивных методов визуализации, относительно недавно получивших распространение.

  • Облако тегов

Каждому элементу в облаке тега присваивается определенный весовой коэффициент, который коррелирует с размером шрифта. В случае анализа текста величина весового коэффициента напрямую зависит от частоты употребления (цитирования) определенного слова или словосочетания. Позволяет читателю в сжатые сроки получить представление о ключевых моментах сколько угодно большого текста или набора текстов.

  • Кластерграмма

Метод визуализации, использующийся при кластерном анализе. Показывает как отдельные элементы множества данных соотносятся с кластерами по мере изменения их количества. Выбор оптимального количества кластеров – важная составляющая кластерного анализа.

  • Исторический поток

Помогает следить за эволюцией документа, над созданием которого работает одновременно большое количество авторов. В частности, это типичная ситуация для сервисов wiki и сайта tadviser в том числе. По горизонтальной оси откладывается время, по вертикальной – вклад каждого из соавторов, т.е. объем введенного текста. Каждому уникальному автору присваивается определенный цвет на диаграмме. Приведенная диаграмма – результат анализа для слова «ислам» в Википедии. Хорошо видно, как возрастала активность авторов с течением времени.

  • Пространственный поток

Эта диаграмма позволяет отслеживать пространственное распределение информации. Приведенная в качестве примера диаграмма построена с помощью сервиса New York Talk Exchange. Она визуализирует интенсивность обмена IP-трафиком между Нью-Йорком и другими городами мира. Чем ярче линия – тем больше данных передается за единицу времени. Таким легко, не составляет труда выделить регионы, наиболее близкие к Нью-Йорку в контексте информационного обмена.

Обработка операционных баз данных и многомерных хранилищ

  • Транзакционные тяжелонагруженные базы данных
  • Реляционные и многомерные хранилища
  • Прямые обращения к API систем
  • Работа с коннекторами
  • Обработка плоских файлов (CSV, Excel, XML и т.п.)

Построение аналитических моделей в памяти

  • •Принципиально другой подход
  • •Нереляционные базы данных
  • •Компрессия
  • •Скорость доступа
  • •Индексация и поиск
  • •Средства визуализации

Типичные проблемы визуализации и расчеты «на лету»

  • Попытка сформировать перегруженный элементами интерфейс
  • Избыточность данных (миллионы строк в табличных и графических элементах)
  • Динамический расчет показателей
  • Сложные вычисления
  • Условное форматирование
  • Неоптимальные выражения, приводящие к полному сканированию таблиц
  • Расчеты по большим объемам первичных данных

Инструментарий, комбинирующий ETL-инструменты и средства визуализации

Задачи

  • SQL запросы
  • Работа с хранимыми процедурами
  • Работа с плоскими файлами как с таблицами базы
  • Скрипты преобразования, обогащения и очистки данных
  • Работа с функциями
  • Формирование новых измерений и значений
  • Подготовка реляционных связей между сущностями

Прогнозная и статистическая аналитика

  • Обработка данных, формирование локальной прогнозной модели, реализация математических алгоритмов
  • Передача данных и использование внешних инструментов
  • Работа с СУБД и использование функций обработки больших массивов данных
  • Многопоточная обработка
  • Сравнительная аналитика
  • What-If анализ и параметризация отчетов

См.также

Business Intelligence, BI (мировой рынок)

Тенденции развития мирового рынка BI

Business Intelligence (рынок России)

CPM (мировой рынок)

Большие данные (Big Data) мировой рынок

Self-Service BI

Предикативная аналитика (предиктивная, прогнозная, прогностическая) Predictive analytics

Cloud/SaaS BI

Примечания