МИСиС: Технология семантического быстрого поиска по специализированным базам данных

Продукт
Разработчики: НИТУ МИСиС (Национальный исследовательский технологический университет)
Дата премьеры системы: 2021/12/22
Технологии: Data Mining

Основная статья: Data mining Интеллектуальный анализ данных

2021: Представление механизма семантического быстрого поиска по специализированным БД

Российские ученые разработали механизм семантического быстрого поиска по специализированным базам данных. Исследование по сегментации текстовых документов для оптимизации и 20%-ого ускорения поиска нужной информации пользователями было реализовано группой ученых НИТУ «МИСиС» в рамках гранта Российского научного фонда на сумму 18 миллионов рублей. Об этом 22 декабря 2021 года TAdviser сообщили в НИТУ «МИСиС».

Ученые решали задачу корректного поиска объемных документов, близких по смыслу. Обычно в больших сложных документах, особенно в рамках специализированных поисковых систем, содержится сразу несколько тем, что сильно затрудняет автоматический поиск. Исследователи предложили использовать метод сегментирования. Игорь Лейпи, ГК Softline: Объем поставок российских операционных систем в ближайшие годы увеличится как минимум вдвое 2.5 т

Технология «МИСиС» может использоваться для улучшения качества информационного поиска и анализа данных в специализированных поисковых системах, предназначенных для научных и промышленных организаций – по отчетам, патентам, научным публикациям.

«
«Сегментирование документов — это деление текста на такие отрывки, в которых речь идет об одном и том же, что может быть полезно в разных задачах обработки естественного языка. К таким задачам, например, относится анализ больших документов или поиск по содержанию документа. С точки зрения прикладного машинного обучения сегментация длинных текстов обоснована, так как на коротких текстах обычно лучше работают различные методы векторизации. Это логично, ведь чем больше текст, тем больше в нем разных смыслов и тем сложнее агрегировать все эти смыслы в некоторое общее векторное представление», — рассказал Никита Никитинский, научный сотрудник Центра исследования больших данных НИТУ «МИСиС».
»

Команда специалистов Центра предложила следующее решение этой проблемы: разбить документ на несколько сегментов, каждый из которых относится к одной теме. По таким тематически однородным кускам текста компьютерному алгоритму проще производить поиск.

«
«В рамках исследования мы использовали метод, основанный на подходе аддитивной регуляризации тематических моделей (additive regularization of topic models, ARTM) и алгоритме Topic Tiling. В результате экспериментов удалось улучшить точность работы узкоспециального поиска по научным публикациям с 55% до почти 82%», — добавил Никитинский.
»

По словам разработчиков, технология уже реализована в российском проекте создания Реестра обязательных требований. По их оценкам, с использованием предложенного метода до 15-20% увеличивается скорость и эффективность поиска нужной информации пользователями, что критично для научных и промышленных организаций.

Как известно, на декабрь 2021 года похожие проблемы решают исследователи и инженеры из других крупных организаций, в том числе Университет Мангейма, французский исследовательский центр Eurecom и Google Research, которые в рамках своих исследований изучали публикации членов научного коллектива по этой тематике.



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (125)
  БизнесАвтоматика НПЦ (118)
  Инфосистемы Джет (13)
  Marketing Logic (Маркетинг Лоджик) (9)
  РДТЕХ (8)
  Другие (574)

  БизнесАвтоматика НПЦ (3)
  Ростелеком (3)
  IPavlov (Айпавлов) (2)
  NLogic (2)
  Сапиенс солюшнс (Sapiens solutions) (2)
  Другие (48)

  БизнесАвтоматика НПЦ (13)
  OneFactor (Уанфактор) ЕдиныйФактор (3)
  Платформа больших данных (Platforma) (2)
  К-Скай (K-SkAI) (2)
  HFLabs (ХФ Лабс), ранее HumanFactorLabs (2)
  Другие (58)

  БизнесАвтоматика НПЦ (7)
  Департамент информационных технологий Москвы (ДИТ) (3)
  Axenix (ранее Аксенчер Россия) Аксеникс (2)
  CM.Expert (АвтоЭксперт) (2)
  Ситроникс КТ (ранее Кронштадт Технологии) (2)
  Другие (58)

  БизнесАвтоматика НПЦ (3)
  Мобильные ТелеСистемы (МТС) (2)
  Университет Иннополис (2)
  Axenix (ранее Аксенчер Россия) Аксеникс (1)
  Exodrive (Экзодрайв) (1)
  Другие (17)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (2, 236)
  БизнесАвтоматика НПЦ (2, 117)
  Oracle (12, 14)
  IBM (10, 14)
  Полиматика (Polymatica) (3, 10)
  Другие (283, 143)

  БизнесАвтоматика НПЦ (1, 3)
  Полиматика (Polymatica) (1, 2)
  Dell EMC (1, 2)
  Informatica (1, 1)
  Minit (1, 1)
  Другие (5, 5)

  БизнесАвтоматика НПЦ (1, 13)
  Сбербанк (2, 2)
  К-Скай (K-SkAI) (1, 2)
  Мегапьютер Интелидженс (Megaputer Intelligence) (1, 2)
  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (1, 2)
  Другие (14, 16)

  БизнесАвтоматика НПЦ (1, 7)
  Ситроникс КТ (ранее Кронштадт Технологии) (2, 2)
  Сбербанк (2, 2)
  CM.Expert (АвтоЭксперт) (1, 2)
  Группа компаний ЦРТ (Центр речевых технологий) (1, 2)
  Другие (12, 12)

  БизнесАвтоматика НПЦ (1, 2)
  Exodrive (Экзодрайв) (1, 1)
  T1 Digital (Т1 Диджитал) (1, 1)
  Мобильные ТелеСистемы (МТС) (1, 1)
  Т1 Консалтинг (Т1 Инновации) (1, 1)
  Другие (2, 2)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Deductor - 226
  Visary BI Платформа бизнес-аналитики - 117
  Loginom Аналитическая платформа - 10
  IBM SPSS Decision Management - 10
  Polymatica Analytics Аналитическая платформа - 10
  Другие 150

  Visary BI Платформа бизнес-аналитики - 3
  EMC Greenplum Data Computing Appliance - 2
  Polymatica Analytics Аналитическая платформа - 2
  Loginom Аналитическая платформа - 1
  IBM SPSS Decision Management - 1
  Другие 5

  Visary BI Платформа бизнес-аналитики - 13
  Platforma и HFLabs: Технология безопасного метчинга данных - 2
  Webiomed - Платформа предиктивной аналитики и управления рисками в здравоохранении на основе машинного обучения - 2
  PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2
  Loginom Аналитическая платформа - 2
  Другие 11

  Visary BI Платформа бизнес-аналитики - 7
  CM.Expert Data Mining платформа - 2
  ЦРТ: Speech Analytics Lab - 2
  Napoleon IT PowerPrice - 1
  Polymatica Analytics Аналитическая платформа - 1
  Другие 13

  Visary BI Платформа бизнес-аналитики - 2
  Сфера. Интеллектуальный анализ процессов - 1
  Napoleon IT PowerPrice - 1
  МТС DataOps Platform - 1
  Exodrive Платформа для оценки качества вождения - 1
  Другие 0