AIRI: OmniFusion Мультимодальная языковая модель

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: Институт Искусственного Интеллекта (AIRI)
Дата премьеры системы: 2024/04/17
Технологии: Речевые технологии

2024: Представление OmniFusion 1.1

Научно-исследовательский институт ИИ (AIRI) в апреле 2024 года представил открытую версию модели OmniFusion – OmniFusion 1.1. Технический репорт со статьей модели уже вышел на первое место в разделе Daily trending papers на HuggingFace. На апрель 2024 г. открытый исходный код для обучения и веса доступны к использованию и могут быть применены в том числе при разработке коммерческих продуктов.

OmniFusion — это передовая мультимодальная модель ИИ, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например, изображений, а в перспективе – аудио, 3D- и видеоконтента.

На середину апреля 2024 г. модель распознает и описывает изображения. С ее помощью можно объяснить, что изображено на фото, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или узнать, как собрать устройство по фото отдельных его частей. Модель также умеет распознавать текст и решать задачи.

На 10 апреля 2024 г. модель может проанализировать медицинское изображение и указать на нем какую-то проблему. Разумеется, для того, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины. Каждый эксперт является профессором медицины или хирургии с постоянной практикой, сертификатом Совета директоров и безупречными полномочиями. В случае же, если обучение будет через информацию из поисковых систем, то результат может быть вредным для будущих пользователей ИИ-моделью.

В основе архитектуры модели лежит методика совмещения предварительно обученной большой языковой модели и ее «глаз» – визуальных энкодеров, которые позволяют кодировать информацию на изображении в числовой вектор, называемый эмбеддингом. Обучением OmniFusion занимается научная группа FusionBrain из AIRI при участии ученых из Sber AI и SberDevices[1].



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (44)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (29)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (27)
  SteadyControl (18)
  Naumen (Наумен консалтинг) (15)
  Другие (191)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  SteadyControl (4)
  3iTech (ранее 3i Technologies) (2)
  Naumen (Наумен консалтинг) (2)
  Другие (17)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  SteadyControl (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  SteadyControl (6)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (5)
  Naumen (Наумен консалтинг) (4)
  Другие (29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (5)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3)
  Robovoice (Робовойс) (3)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (3)
  Другие (26)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 30)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (12, 29)
  SteadyControl (1, 23)
  SteadyControl HoReCa (1, 23)
  Другие (353, 210)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SteadyControl HoReCa (1, 4)
  SteadyControl (1, 4)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (9, 13)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 3)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Naumen (Наумен консалтинг) (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 7)
  SteadyControl (1, 7)
  Другие (17, 29)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  SteadyControl HoReCa (1, 5)
  SteadyControl (1, 5)
  СалютДевайсы (ранее SberDevices) (2, 4)
  Сбербанк (2, 4)
  Другие (20, 33)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ VoiceBox - 24
  SteadyControl Система контроля и управления персоналом - 23
  BSS Digital2Speech - 21
  Voice2Med Система распознавания речи в медицине - 14
  Naumen Erudite - 13
  Другие 199

  BSS Digital2Speech - 5
  SteadyControl Система контроля и управления персоналом - 4
  Voice2Med Система распознавания речи в медицине - 4
  Naumen Erudite - 2
  3i TouchPoint Analytics - 2
  Другие 11

  МТТ VoiceBox - 11
  BSS Digital2Speech - 6
  SteadyControl Система контроля и управления персоналом - 3
  Naumen Erudite - 3
  VS Robotics: VS Робот-оператор - 3
  Другие 14

  МТТ VoiceBox - 9
  SteadyControl Система контроля и управления персоналом - 7
  EXpress Защищенный корпоративный мессенджер - 6
  BSS Digital2Speech - 6
  SmartLogger II - 4
  Другие 23

  SteadyControl Система контроля и управления персоналом - 5
  BSS Digital2Speech - 4
  YandexGPT (YaLM 2.0) - 3
  EXpress Защищенный корпоративный мессенджер - 3
  BSS: Виртуальный голосовой ассистент - 3
  Другие 25