Логотип
Баннер в шапке 1
Баннер в шапке 2

Сбер ruRoBERTa Языковая модель

Продукт
Разработчики: SberDevices (СалютДевайсы, ранее СберДевайсы), Сбербанк
Технологии: Речевые технологии

Основная статья: Речевые технологии: на пути от распознавания к пониманию

2021: Языковые модели от SberDevices признаны лучшими по пониманию текстов на русском языке

Разработанная SberDevices текстовая модель ruRoberta-large finetune стала лучшей по пониманию текста в соответствии с оценкой русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE, уступая по точности только человеку. Также в шестёрку лидеров вошло ещё четыре модели от SberDevices: ruT5-large-finetune, ruBert-large finetune, ruT5-base-finetune, ruBert-base finetune. Об этом 25 августа 2021 года сообщили в Сбербанке.

Обучив языковую модель ruBERT, в Сбере стали развивать её более продвинутую версию — ruRoBERTa. Архитектурно это тот же BERT, обученный на большом корпусе текста, только на задачу восстановления маскированных токенов, на большом батч-сайзе и с токенизатором BBPE от нейросети ruGPT-3. Обучение модели на суперкомпьютере «Кристофари» заняло три недели, итоговый датасет (250 ГБ текста) был похож на тот, что использовался для ruGPT-3, однако из него был удалён английский и часть «грязного» Common Crawl.

Место в рейтинге Russian SuperGLUE зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются все исследователи данных, работающие с русскоязычными нейросетями.«Группа Астра» разрослась до двух десятков компаний. Ключевые активы экосистемы 8.1 т

Оценка общего понимания языка начинается в рейтинге с набора тестов, отражающих различные языковые явления — диагностического датасета. Он отражает лингвистические феномены языка и показывает, насколько модель ruRoberta-large finetune понимает те или иные его особенности. Высокий скор (LiDiRus) говорит о том, что модель не просто запомнила задания или угадывает результат, а выучивает особенности и осваивает разнообразие феноменов русского языка.

Каждая модель также оценивается посредством различных заданий, среди которых DaNetQA — набор вопросов на здравый смысл и знание, с ответом «да» или «нет», RCB (Russian Commitment Bank) — классификация наличия причинно-следственных связей между текстом и гипотезой из него, PARus (Plausible Alternatives for Russian) — целеполагание, выбор из альтернативных вариантов на основе здравого смысла и другие.

«
Специалисты Сбера несколько лет занимаются совершенствованием нейросетей для русского языка. Для их объективной оценки мы разработали лидерборд Russian SuperGLUE, который чётко показывает прогресс в данной работе. Наша конечная цель — создание надёжных интеллектуальных систем для решения разноплановых задач на русском языке, которые могут стать предшественниками сильного искусственного интеллекта отечественной сборки, - рассказал Давид Рафаловский, исполнительный вице-президент Сбербанка, CTO Сбера, руководитель блока «Технологии».
»



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (44)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (27)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (25)
  SteadyControl (18)
  Naumen (Наумен консалтинг) (14)
  Другие (167)

  Группа компаний ЦРТ (Центр речевых технологий) (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (4)
  SteadyControl (4)
  3iTech (ранее 3i Technologies) (2)
  Naumen (Наумен консалтинг) (2)
  Другие (17)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (7)
  Naumen (Наумен консалтинг) (3)
  Voice Systems Robotics (VSR, VS Robotics) (3)
  SteadyControl (2)
  Другие (14)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (9)
  Группа компаний ЦРТ (Центр речевых технологий) (8)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (6)
  SteadyControl (6)
  Naumen (Наумен консалтинг) (4)
  Другие (23)

  SteadyControl (5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (3)
  Яндекс (Yandex) (2)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2)
  AllSee (АЛЛ СИИ) (1)
  Другие (11)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Группа компаний ЦРТ (Центр речевых технологий) (17, 46)
  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (3, 28)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (11, 27)
  SteadyControl (1, 23)
  SteadyControl HoReCa (1, 23)
  Другие (317, 179)

  Группа компаний ЦРТ (Центр речевых технологий) (2, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (1, 5)
  SteadyControl (1, 4)
  SteadyControl HoReCa (1, 4)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (9, 13)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (2, 12)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 7)
  Naumen (Наумен консалтинг) (1, 3)
  SteadyControl (1, 3)
  SteadyControl HoReCa (1, 3)
  Другие (12, 16)

  МТС Exolve (Межрегиональный ТранзитТелеком, МТТ) (1, 9)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 8)
  Группа компаний ЦРТ (Центр речевых технологий) (4, 7)
  SteadyControl (1, 7)
  SteadyControl HoReCa (1, 7)
  Другие (15, 23)

  SteadyControl (1, 5)
  SteadyControl HoReCa (1, 5)
  Banks Soft Systems, BSS (Бэнкс Софт Системс, БСС) (2, 4)
  Яндекс (Yandex) (1, 3)
  SberDevices (СалютДевайсы, ранее СберДевайсы) (2, 2)
  Другие (11, 12)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  МТТ VoiceBox - 24
  SteadyControl Система контроля и управления персоналом - 23
  BSS Digital2Speech - 20
  Voice2Med Система распознавания речи в медицине - 14
  SmartLogger II - 12
  Другие 177

  BSS Digital2Speech - 5
  SteadyControl Система контроля и управления персоналом - 4
  Voice2Med Система распознавания речи в медицине - 4
  МТТ VoiceBox - 2
  Neuro.net Голосовой робот - 2
  Другие 11

  МТТ VoiceBox - 11
  BSS Digital2Speech - 6
  SteadyControl Система контроля и управления персоналом - 3
  Naumen Erudite - 3
  VS Robotics: VS Робот-оператор - 3
  Другие 14

  МТТ VoiceBox - 9
  BSS Digital2Speech - 7
  SteadyControl Система контроля и управления персоналом - 7
  EXpress Защищенный корпоративный мессенджер - 6
  SmartLogger II - 4
  Другие 20

  SteadyControl Система контроля и управления персоналом - 5
  YandexGPT (YaLM 2.0) - 3
  BSS: Виртуальный голосовой ассистент - 2
  BSS Digital2Speech - 2
  Сбер Салют Виртуальные ассистенты - 1
  Другие 10