Tinkoff Research: ReBRAC
Revisited Behavior Regularized Actor Critic
Алгоритм для обучения и адаптации ИИ

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: Тинькофф Банк
Дата премьеры системы: 2023/12/21

Основная статья: Обучение искусственного интеллекта

2023: Представление алгоритма ReBRAC для обучения и адаптации ИИ

Ученые лаборатории исследований искусственного интеллекта (ИИ) Tinkoff Research создали алгоритм для обучения и адаптации искусственного интеллекта. По утверждению ученых, метод под названием ReBRAC (Revisited Behavior Regularized Actor Critic — пересмотренный актор-критик с контролируемым поведением) обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением (Reinforcement Learning, RL), адаптируя его к новым условиям на ходу. Такие результаты были получены в рамках тестирования алгоритма на робототехнических симуляторах, сообщили TAdviser 21 декабря 2023 года представители Тинькофф Банка.

Визуализация качества альтернативных подходов и алгоритма ReBRAC. По горизонтальной оси — качество алгоритма относительно «эксперта» (служит эталоном для обучения ИИ-агентов), где 100 — это уровень эксперта. По вертикальной оси — процент испытаний, в которых удалось превзойти выбранную отсечку качества. Чем выше линия, тем лучше. Метод, предложенный Tinkoff Research, стал первым превзошедшим эксперта более чем в половине испытаний. Алгоритм SAC-RND создан также учеными Tinkoff Research

В ходе исследования ученые Tinkoff Research идентифицировали четыре компонента, которые были представлены в алгоритмах последних лет, но считались второстепенными и не подвергались детальному анализу:

  • Глубина нейронных сетей. Увеличение глубины сети помогает ей лучше понимать сложные закономерности в данных.
  • Регуляризация актора и критика. В ИИ-агентах есть два компонента: «актор», который предпринимает действия, и «критик», который оценивает эти действия. Ученые использовали совместную регуляризацию обоих компонентов, чтобы актор избегал нежелательных действий, а критик более эффективно оценивал их. Ранее не было понятно, как сочетать оба подхода с наибольшей эффективностью.
  • Увеличение эффективного горизонта планирования — позволяет модели балансировать между краткосрочными и долгосрочными аспектами задачи и улучшает ее способность принимать решения.
  • Использование нормализации слоев (Layer Norm) — стабилизирует процесс обучения нейронных сетей.

Ученые Tinkoff Research интегрировали эти компоненты в алгоритм-предшественник BRAC (Behavior Regularized Actor Critic — актор-критик с контролируемым поведением) 2019 года и провели исследование, поочередно варьируя каждый из них. Оказалось, что правильная совокупность этих компонентов дает даже этому старому подходу самую высокую производительность среди лучших аналогов на момент проведения исследования, отметили в Tinkoff Research. Модифицированный алгоритм получил название ReBRAC.

Визуализация вариантов тестирования алгоритма: поиск цели в лабиринте (Ant), скорость бега (Halfcheetah, Hopper, Walker2d), задачи для робокистей — правильно держать ручку (Pen), открыть дверь, забить гвоздь, переместить объект

«
ReBRAC также эффективнее всего решает проблему дообучения искусственного интеллекта, который обычно медленно адаптируется к новым условиям. Например, робот, который был изначально обучен передвигаться по траве, упадет, если переместится на лед. ReBRAC же позволяет ИИ лучше учиться на ходу и адаптироваться, — пояснили в Tinkoff Research.
»

Ожидается, что разработка российских ученых в области повышения эффективности алгоритмов обучения ИИ может способствовать преодолению технологического и цифрового разрыва в мире между разными странами — более эффективные алгоритмы требуют меньше вычислительных ресурсов. В частности, страны с ограниченными вычислительными мощностями смогут создавать и развивать передовые технологии, адаптировать ИИ под конкретные прикладные задачи, существенно экономя на дорогостоящих экспериментах с ИИ, полагают в Tinkoff Research.

По информации Тинькофф Банка, результаты исследования были признаны мировым научным сообществом.



СМ. ТАКЖЕ (1)