МТУСИ: Нейросетевая модель распознавания голосовых команд для системы управления роботом манипулятором

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: Московский технический университет связи и информатики (МТУСИ)
Дата премьеры системы: 2023/10/30
Технологии: Речевые технологии

Основные статьи:

2023: Разработка нейросетевой модели распознавания голосовых команд

Ученые МТУСИ разработали нейросетевую модель распознавания голосовых команд для системы управления роботом-манипулятором. Об этом университет сообщил 30 октября 2023 года.

Взаимодействие человека с роботом-манипулятором все чаще входит в практику работы в пищевой промышленности и медицине. По словам ученых, для такой работы целесообразно по максимуму использовать возможности нейросетевой модели для распознавания и классификации голосовых команд.Игорь Лейпи, ГК Softline: Объем поставок российских операционных систем в ближайшие годы увеличится как минимум вдвое 3.4 т

Благодаря перебору параметров нейронной сети, учеными МТУСИ определена наиболее результативная архитектура, состоящая из пяти скрытых (8, 16, 32, 64, 128 нейронов) и двух полносвязных слоев (256 и 128 нейронов). Представленная архитектура обеспечивает точность распознавания команд 87.17% на тестовом наборе.

В ходе обучения нейронной сети использована часть набора данных от компании Google, включающая 64 728 аудиофайлов, содержащих записи одной из 30 команд на английском языке, 12 из которых могут быть использованы в системе управления роботом-манипулятором.

«
В рамках дальнейшей работы планируется собрать собственный набор данных, состоящий из команд для робота-манипулятора на русском языке, попробовать увеличить точность распознавания команд до 95% и осуществить передачу исполнительной команды непосредственно роботу-манипулятору, — рассказал Данил Подпалый, магистрант МТУСИ.
»

Разработанная модель распознавания голосовых команд может использоваться при проектировании и разработке системы управления промышленным роботом-манипулятором на базе голосового управления либо при разработке полноценной диалоговой системы для коллаборативной работы человека и робота-манипулятора.

Ученые из МТУСИ выразили уверенность в том, что ещё более широкое внедрение нейросетевой модели распознавания голосовых команд позволит предприятиям выйти на новый уровень выполнения задач, увеличить эффективность работы и перераспределить обязанности между устройствами и людьми.



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (43)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (27)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (24)
  Naumen (Наумен консалтинг) (14)
  Voice Systems Robotics (VSR, VS Robotics) (9)
  Другие (147)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  3iTech (ранее 3i Technologies) (2)
  Naumen (Наумен консалтинг) (2)
  Neuro.net (Нейро) (2)
  Другие (15)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  Мегапьютер Интелидженс (Megaputer Intelligence) (2)
  Другие (11)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  Naumen (Наумен консалтинг) (4)
  Unlimited Production (Анлимитед Продакшен) (4)
  Другие (18)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2)
  AllSee (АЛЛ СИИ) (1)
  Napoleon IT (Наполеон Айти) (1)
  Naumen (Наумен консалтинг) (1)
  Другие (6)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (16, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 28)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (11, 25)
  Яндекс (Yandex) (9, 14)
  Avaya (4, 13)
  Другие (300, 144)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  3iTech (ранее 3i Technologies) (1, 2)
  Naumen (Наумен консалтинг) (1, 2)
  Другие (7, 9)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Naumen (Наумен консалтинг) (1, 3)
  Voice Systems Robotics (VSR, VS Robotics) (1, 3)
  Voximplant (Фастком) (2, 2)
  Другие (9, 11)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 8)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  Unlimited Production (Анлимитед Продакшен) (1, 6)
  Naumen (Наумен консалтинг) (2, 4)
  Другие (12, 13)

  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 2)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Группа компаний ЦРТ (Центр речевых технологий) (1, 1)
  Наносемантика (Nanosemantics Lab) (1, 1)
  Сбер Бизнес Софт (1, 1)
  Другие (6, 6)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ VoiceBox - 24
  BSS Digital2Speech - 19
  Voice2Med Система распознавания речи в медицине - 14
  SmartLogger II - 12
  Naumen Erudite - 12
  Другие 159

  BSS Digital2Speech - 5
  Voice2Med Система распознавания речи в медицине - 4
  Neuro.net Голосовой робот - 2
  3i TouchPoint Analytics - 2
  Naumen Erudite - 2
  Другие 9

  МТТ VoiceBox - 11
  BSS Digital2Speech - 6
  Naumen Erudite - 3
  VS Robotics: VS Робот-оператор - 3
  PolyAnalyst Платформа визуальной разработки сценариев анализа данных и текстов - 2
  Другие 12

  МТТ VoiceBox - 9
  BSS Digital2Speech - 7
  EXpress Защищенный корпоративный мессенджер - 6
  SmartLogger II - 4
  Naumen Erudite - 3
  Другие 17

  YandexGPT (YaLM 2.0) - 1
  Сбер SaluteSpeech (SmartSpeech) - 1
  SmartLogger II - 1
  Naumen Erudite - 1
  BSS и Ростелеком: Виртуальный голосовой ассистент - 1
  Другие 7