3i Speech Transcriptor (3i ASR)

Продукт
Разработчики: 3iTech (ранее 3i Technologies)
Дата последнего релиза: 2021/03/03
Технологии: ИБ - Биометрическая идентификация,  Речевые технологии,  Средства разработки приложений

Содержание

Основные статьи:


3i Speech Transcriptor — специальное программное обеспечение, которое предназначено для решения задачи преобразования речи в текст, передающейся по медиаканалам (ТВ, радио) и по каналам телефонной связи (традиционной, сотовой, IP-телефонии).TAdviser выпустил Карту российского рынка цифровизации строительства 25.5 т

3i Speech Transcriptor предоставляет разработчику API.

2021: Снижение на 20% вероятности возникновения ошибки при распознавании речи

Компания 3iTech 3 марта 2021 года сообщила об усовершенствовании акустической модели движка распознавания речи 3i ASR. Это позволило на 20% снизить вероятность возникновения ошибки при распознавании речи, и за счет этого повысить качество решения бизнес-задач.

Акустическая модель используется в системах распознавания речи для преобразования речевого сигнала в гипотезы букв, которые затем выстраиваются в связный текст при помощи языковой модели. От качества получаемых текстов зависит точность и корректность решения бизнес-задач. Обновление акустической модели речевого движка 3i ASR, позволило на 20% снизить вероятность ошибки (WER, Word Error Rate) на тестовых выборках, охватывающих большой круг акустических условий, в том числе сложных. Для этого была проведена модификация архитектуры нейронной сети, которая позволила не только повысить точность, но и существенно сократить число обучаемых параметров. Кроме того, был запущен процесс перехода к непрерывному циклу самообучения моделей.

Речевой движок 3i ASR применяется в системе речевой аналитики 3i TouchPoint Analytics и в платформе 3i VOX, которые используются для решения различных бизнес-задач: от построения enterprise систем речевой аналитики до интеллектуальных разговорных ботов. Разработки компания 3iTech применяются для контроля качества обслуживания и выявления лучших практик продаж в банках, ритейле, и контакт-центрах крупных девелоперов.

«
По качеству распознавания речи наши продукты входят в число лучших на российском рынке. В своих разработках мы используем технологии машинного обучения. Наши специалисты регулярно обучают акустическую и языковую модели. Изменение структуры акустической модели не только заметно повысило точность обработки голосовых данных, но и открыло возможности для перехода к ее самообучению. То есть в будущем наши системы смогут совершенствоваться автоматически, – говорит Алексей Любимов, основатель и генеральный директор компании 3iTech.
»

2020: Оптимизация речевой модели для понимания молодежного сленга

Компания 3iTech 22 мая 2020 года сообщила о том, что оптимизировала речевую модель, которая используется в системе распознавания речи 3i ASR. Теперь платформы, которые построены на этом речевом движке, смогут «понять» молодежный сленг и сбивчивую разговорную речь.

Речевой движок 3i ASR применяется при создании широкого спектра продуктов, например, чат-ботов и голосовых помощников; используется для создания интеллектуальной «первой линии» в контакт-центрах и службах технической поддержки. Голосовым системам нередко приходится иметь дело со сленгом или несвязной речью, что осложняет распознавание и корректное «понимание» сказанного. Включение в языковую модель сниженной, специфической и других пластов разговорной лексики повышает корректность распознавания и расширяет возможности применения как речевого движка 3i ASR, так и построенных на его базе платформ, подчеркнули в 3iTech.

«
В реальной языковой ситуации люди часто используют специфические словечки и выражения: это и молодежный сленг, и устоявшиеся сокращения, и слова-паразиты. То, как мы говорим в жизни, совсем не похоже на телевизионное вещание или диалоги из художественной литературы. Поэтому интеллектуальным системам подчас сложно «понять» людей. Мы усовершенствовали речевую модель, включив в нее пласты человеческой разговорной культуры», - отметил Алексей Любимов, председатель совета директоров компании 3iTech.
»

3iTech использует 3i ASR для создания специализированных систем и программных комплексов. Например, на его основе построены платформа речевой аналитики 3i TouchPoint Analytics и облачная AI-платформа 3i VOX, которые уже используется в ритейле, в банках, в телекоммуникационных компаниях. Решения на базе речевого движка 3i ASR уже применяются в контакт-центрах и клиентских офисах.

2019

Разработка 3i ASR 2.0

19 сентября 2019 года компания 3i Technologies сообщила, что ее эксперты разработали движок распознавания речи 3i ASR 2.0, который позволит заметно улучшить качество работы продуктов и сервисов компании. Благодаря 3i ASR 2.0 системы смогут точнее понимать живую человеческую речь. Движок будет использоваться как в выпускаемых продуктах и сервисах компании, так и в тех, которые уже представлены на рынке.

Движок построен на базе end-to-end архитектуры с использованием нейросетей и машинного обучения (machine learning). 3i ASR 2.0 обучен на выборке в несколько тысяч часов с аугментацией данных (внесением разных типов искажений). Это позволило значительно снизить уровень относительной ошибки и повысить качество распознавания живой речи.

Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU. Представленный движок дает возможность распознавать массивы речевой информации в более чем сто раз быстрее их реального звучания.

«
Технологии распознавания речи и системы созданные с их использованием меняют привычные сервисы. Все уже сталкивались с тем, что речевую систему можно встретить в контакт-центре, позвонив в техподдержку. Нас прекрасно понимают электронные устройства, когда мы голосом диктуем, например, поисковый запрос. Продукты 3i Technologies контролируют диалоги сотрудников транспортных компаний с клиентами, или общение работников ритейла. По «голосу» мы выявляем телефонных мошенников. B c каждым днем сфера применения речевых технологии расширяется, при этом заказчики становятся все более требовательными к качеству распознавания и скорости обработки речевой информации. И наш движок – это ощутимый шаг вперед,
говорит Любимов Алексей, председатель совета директоров 3i Technologies
»

Движок будет интегрирован в облачный сервис для профессиональной обработки речевых данных 3i Speech Recognition, в облачную платформу речевой аналитики 3i TouchPoint Analytics и другие продукты и сервисы компании. Миграция на данный движок произойдет бесшовно.

Интеграция с платформой Personal IT

25 января 2019 года компания 3i Technologies сообщила о подписании с компанией «Проф ИТ» соглашения о сотрудничестве в области создания голосовых интеллектуальных сервисов и чат-ботов. Разработчики «Проф ИТ» получили доступ к голосовой платформе и инструментам 3i Technologies. Подробнее здесь.

Технология. Характеристики. Модификации

Технология

По информации на январь 2019 года возможности распознавания речи 3i Speech Transcriptor базируются на технологиях DNN и WFST — глубоких нейронных сетей (deep neural networks) и взвешенных конечных автоматов (weighted finite state transducer).

Основные характеристики

Использованные компанией технологии распознавания речи обеспечивают:

  • высокую скорость обработки речевого сигнала, за счет распараллеливания вычислений;
  • должное качество распознавания речи;
  • возможность гибкой настройки модуля распознавания речи на тип канала (телевидение и радио), телефония (традиционная, сотовая, IP-телефония)) и\или язык за счет использования обучаемых моделей, распространяемых независимо;
  • дикторонезависимое распознавание слитной речи, в том числе при наличии акцента, внешних шумов, неречевых звуков, музыки;
  • распознавание файлов или потоков речи неограниченной длины за счет деления записей по паузам внутри речи и *распознавания получившихся кусочков в отдельных потоках ЦП;
  • большой словарь распознаваемых слов, включающий сотни тысяч слов, чего практически достаточно для распознавания любого текста общей лексики.

Возможна адаптация существующих языковых моделей и разработка новых под требования заказчика.

Модификации

На январь 2019 года доступны две модификации продукта, ориентированные на различные источники входных данных:

  • Phone — обработка речевых данных из телефонного канала
  • Broadcast — обработка речевых данных из медийного (телерадиовещательного) канала

Системные требования (минимальные)

  • CPU Intel Core i7 – 5820K 3,3 ГГц (6 физических вычислительных ядер);
  • ОЗУ 16 ГБ;
  • HDD 100 ГБ свободного места на жёстком диске.
  • Поддерживаемые ОС: Microsoft Windows 7 SP1 или выше либо ОС на основе ядра Linux.[1]

Примечания



СМ. ТАКЖЕ (3)


Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Сбербанк (1, 2)
  Shenzhen Chainway Information Technology (1, 1)
  Voca-Tech (Вока-Тек) (1, 1)
  Другие (0, 0)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Microsoft (41, 47)
  Солар (ранее Ростелеком-Солар) (2, 46)
  Oracle (49, 26)
  Hyperledger (Open Ledger Project) (1, 23)
  IBM (33, 18)
  Другие (553, 270)