Название базовой системы (платформы): | Искусственный интеллект (ИИ, Artificial intelligence, AI) |
Разработчики: | Тинькофф Банк |
Дата премьеры системы: | 2023/12/21 |
Основная статья: Обучение искусственного интеллекта
2023: Представление алгоритма ReBRAC для обучения и адаптации ИИ
Ученые лаборатории исследований искусственного интеллекта (ИИ) Tinkoff Research создали алгоритм для обучения и адаптации искусственного интеллекта. По утверждению ученых, метод под названием ReBRAC (Revisited Behavior Regularized Actor Critic — пересмотренный актор-критик с контролируемым поведением) обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением (Reinforcement Learning, RL), адаптируя его к новым условиям на ходу. Такие результаты были получены в рамках тестирования алгоритма на робототехнических симуляторах, сообщили TAdviser 21 декабря 2023 года представители Тинькофф Банка.
В ходе исследования ученые Tinkoff Research идентифицировали четыре компонента, которые были представлены в алгоритмах последних лет, но считались второстепенными и не подвергались детальному анализу:
- Глубина нейронных сетей. Увеличение глубины сети помогает ей лучше понимать сложные закономерности в данных.
- Регуляризация актора и критика. В ИИ-агентах есть два компонента: «актор», который предпринимает действия, и «критик», который оценивает эти действия. Ученые использовали совместную регуляризацию обоих компонентов, чтобы актор избегал нежелательных действий, а критик более эффективно оценивал их. Ранее не было понятно, как сочетать оба подхода с наибольшей эффективностью.
- Увеличение эффективного горизонта планирования — позволяет модели балансировать между краткосрочными и долгосрочными аспектами задачи и улучшает ее способность принимать решения.
- Использование нормализации слоев (Layer Norm) — стабилизирует процесс обучения нейронных сетей.
Ученые Tinkoff Research интегрировали эти компоненты в алгоритм-предшественник BRAC (Behavior Regularized Actor Critic — актор-критик с контролируемым поведением) 2019 года и провели исследование, поочередно варьируя каждый из них. Оказалось, что правильная совокупность этих компонентов дает даже этому старому подходу самую высокую производительность среди лучших аналогов на момент проведения исследования, отметили в Tinkoff Research. Модифицированный алгоритм получил название ReBRAC.
ReBRAC также эффективнее всего решает проблему дообучения искусственного интеллекта, который обычно медленно адаптируется к новым условиям. Например, робот, который был изначально обучен передвигаться по траве, упадет, если переместится на лед. ReBRAC же позволяет ИИ лучше учиться на ходу и адаптироваться, — пояснили в Tinkoff Research. |
Ожидается, что разработка российских ученых в области повышения эффективности алгоритмов обучения ИИ может способствовать преодолению технологического и цифрового разрыва в мире между разными странами — более эффективные алгоритмы требуют меньше вычислительных ресурсов. В частности, страны с ограниченными вычислительными мощностями смогут создавать и развивать передовые технологии, адаптировать ИИ под конкретные прикладные задачи, существенно экономя на дорогостоящих экспериментах с ИИ, полагают в Tinkoff Research.
По информации Тинькофф Банка, результаты исследования были признаны мировым научным сообществом.