Tinkoff Research: ReBRAC
Revisited Behavior Regularized Actor Critic
Алгоритм для обучения и адаптации ИИ

Продукт

Название базовой системы (платформы):	Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики:	Тинькофф Банк
Дата премьеры системы:	2023/12/21

СМ. ТАКЖЕ (1)

Основная статья: Обучение искусственного интеллекта

2023: Представление алгоритма ReBRAC для обучения и адаптации ИИ

Ученые лаборатории исследований искусственного интеллекта (ИИ) Tinkoff Research создали алгоритм для обучения и адаптации искусственного интеллекта. По утверждению ученых, метод под названием ReBRAC (Revisited Behavior Regularized Actor Critic — пересмотренный актор-критик с контролируемым поведением) обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением (Reinforcement Learning, RL), адаптируя его к новым условиям на ходу. Такие результаты были получены в рамках тестирования алгоритма на робототехнических симуляторах, сообщили TAdviser 21 декабря 2023 года представители Тинькофф Банка.

Tinkoff Research

Визуализация качества альтернативных подходов и алгоритма ReBRAC. По горизонтальной оси — качество алгоритма относительно «эксперта» (служит эталоном для обучения ИИ-агентов), где 100 — это уровень эксперта. По вертикальной оси — процент испытаний, в которых удалось превзойти выбранную отсечку качества. Чем выше линия, тем лучше. Метод, предложенный Tinkoff Research, стал первым превзошедшим эксперта более чем в половине испытаний. Алгоритм SAC-RND создан также учеными Tinkoff Research

В ходе исследования ученые Tinkoff Research идентифицировали четыре компонента, которые были представлены в алгоритмах последних лет, но считались второстепенными и не подвергались детальному анализу:

Глубина нейронных сетей. Увеличение глубины сети помогает ей лучше понимать сложные закономерности в данных.
Регуляризация актора и критика. В ИИ-агентах есть два компонента: «актор», который предпринимает действия, и «критик», который оценивает эти действия. Ученые использовали совместную регуляризацию обоих компонентов, чтобы актор избегал нежелательных действий, а критик более эффективно оценивал их. Ранее не было понятно, как сочетать оба подхода с наибольшей эффективностью.
Увеличение эффективного горизонта планирования — позволяет модели балансировать между краткосрочными и долгосрочными аспектами задачи и улучшает ее способность принимать решения.
Использование нормализации слоев (Layer Norm) — стабилизирует процесс обучения нейронных сетей.

Ученые Tinkoff Research интегрировали эти компоненты в алгоритм-предшественник BRAC (Behavior Regularized Actor Critic — актор-критик с контролируемым поведением) 2019 года и провели исследование, поочередно варьируя каждый из них. Оказалось, что правильная совокупность этих компонентов дает даже этому старому подходу самую высокую производительность среди лучших аналогов на момент проведения исследования, отметили в Tinkoff Research. Модифицированный алгоритм получил название ReBRAC.

Tinkoff Research

Визуализация вариантов тестирования алгоритма: поиск цели в лабиринте (Ant), скорость бега (Halfcheetah, Hopper, Walker2d), задачи для робокистей — правильно держать ручку (Pen), открыть дверь, забить гвоздь, переместить объект

ReBRAC также эффективнее всего решает проблему дообучения искусственного интеллекта, который обычно медленно адаптируется к новым условиям. Например, робот, который был изначально обучен передвигаться по траве, упадет, если переместится на лед. ReBRAC же позволяет ИИ лучше учиться на ходу и адаптироваться, — пояснили в Tinkoff Research.

Ожидается, что разработка российских ученых в области повышения эффективности алгоритмов обучения ИИ может способствовать преодолению технологического и цифрового разрыва в мире между разными странами — более эффективные алгоритмы требуют меньше вычислительных ресурсов. В частности, страны с ограниченными вычислительными мощностями смогут создавать и развивать передовые технологии, адаптировать ИИ под конкретные прикладные задачи, существенно экономя на дорогостоящих экспериментах с ИИ, полагают в Tinkoff Research.

По информации Тинькофф Банка, результаты исследования были признаны мировым научным сообществом.

Источник — «https://transport.tadviser.ru/index.php/%D0%9F%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82:Tinkoff_Research:_ReBRAC_(Revisited_Behavior_Regularized_Actor_Critic)_%D0%90%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_%D0%B4%D0%BB%D1%8F_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B8_%D0%B0%D0%B4%D0%B0%D0%BF%D1%82%D0%B0%D1%86%D0%B8%D0%B8_%D0%98%D0%98»

СМ. ТАКЖЕ (1)

Править

Read in English | Короткая ссылка