Yandex DataSphere

Продукт
Разработчики: Яндекс.Облако (Yandex.Cloud)
Дата премьеры системы: 2020/05/29
Дата последнего релиза: 2023/05/23
Отрасли: Информационные технологии
Технологии: IaaS - Инфраструктура как услуга

Содержание

Основные статьи:

2023

Возможность использовать для ML-задач выделенные виртуальные машины

23 мая 2023 года компания Yandex Cloud сообщила об открытии доступа к обновленной версии сервиса для полного цикла машинного обучения Yandex DataSphere. Теперь разработчики могут использовать для ML-задач в сервисе выделенные виртуальные машины. Это поможет ИТ-специалистам, которые привыкли работать с алгоритмами в собственной инфраструктуре, легче переносить ML-вычисления в облако. Также в Yandex DataSphere стало удобнее настраивать среду разработки, что позволит быстрее обучать и выводить модели в продакшн.

Данный режим работы Yandex DataSphere Dedicated дает возможность пользователю зарезервировать виртуальную машину в облаке под свой проект и работать с ней столько, сколько потребуется. За счет привычной работы с вычислительными ресурсами в режиме Dedicated можно ускорить разработку моделей машинного обучения для различных задач по анализу данных. Например, для обнаружения поломок оборудования или управления рисками в компании. Как зародилась масштабная коррупционная схема при внедрении ИТ в ПФР при участии «Техносерва» и «Редсис». Подробности 38.7 т

Помимо данного режима Dedicated, в Yandex DataSphere остается возможность выбрать режим Serverless при обучении моделей. Технология бессерверных вычислений позволяет автоматически подключать виртуальную машину нужного типа только на время непосредственных расчётов (обучение моделей, запуск и других вычислений). Этот режим позволяет пользователю оплачивать вычислительные мощности только во время реального обучения и максимально оптимизировать расходы на вычисления.

Также в Yandex DataSphere появилась обновленная версия Jupyter Notebook - наиболее популярного редактора кода для ML-разработки. Обновленный интерфейс, а также предустановленные расширения - например, навигация по блокноту внутри ноутбука, позволяют удобнее работать с Jupyter Notebook. Кроме этого, в Yandex DataSphere можно настроить прозрачную визуализацию использования ресурсов: в режиме реального времени отслеживать, какие ресурсы доступны на используемых машинах и как они утилизируются.

В Yandex DataSphere есть все необходимые инструменты для полного цикла разработки машинного обучения, а также интеграции с другими облачными сервисами платформы - Data Proc (управление Apache Spark) и Data Transfer (инструмент для передачи данных). ML-специалист может подключать внутри сервиса необходимые библиотеки для параллельной обработки данных на кластерах Spark и напрямую - различные облачные хранилища для анализа и хранения данных. Также Yandex DataSphere отлично подходит для командной работы: к проектам можно подключать других ML-разработчиков и специалистов, которые задействованы в работе с моделями машинного обучения. Например, инженер поддержки может корректировать настройки для эксплуатации модели, а администратор – управлять настройками доступа.

Бесплатное предоставление российским вузам

Компания Yandex Cloud 6 апреля 2023 года сообщила о том, что бесплатно предоставит российским вузам облачные ресурсы для обучения ИИ.

Это поможет образовательным организациям увеличить количество программ по машинному обучению и улучшить их качество

Так, с помощью сервиса для ML-разработки Yandex DataSphere преподаватели смогут обучать студентов создавать базовые модели машинного обучения, быстрее проверять код, запускать учебные исследования в области искусственного интеллекта.

В Yandex DataSphere есть все необходимые инструменты для полного цикла разработки машинного обучения. Кроме вычислительных ресурсов сервис предоставляет преднастроенную среду для работы с нейросетями, которая в дальнейшем может быть кастомизирована под разные задачи. Также в качестве среды для обучения моделей в Yandex DataSphere доступен стандартный для ML-разработки интерфейс Jupiter Notebook. За счет простых и знакомых инструментов в Yandex DataSphere студенты смогут сосредоточиться на работе с кодом, а также дольше работать над моделями без автоматического отключения ноутбука.

Yandex DataSphere - инструмент для командной работы. К проектам в сервисе можно подключать сразу нескольких студентов и моделировать работу ML-команды по ролям. Инженер поддержки может зайти в проект и скорректировать настройки для эксплуатации модели, а администратор – управлять настройками доступа прямо в Yandex DataSphere. У менеджеров проектов и аналитиков есть возможность отслеживать, сколько ресурсов тратит команда на разработку моделей.

«
Для нас важно, чтобы доступ к технологиям машинного обучения в облаке был не только у компаний, но и у всего научного сообщества, включая вузы. Yandex DataSphere поможет преподавателям усовершенствовать программы обучения, а студентам проще и быстрее изучать основы ML, - рассказала Анна Лемякина, директор по национальным стратегическим проектам Yandex Cloud.
»

Yandex Cloud на апрель 2023 года поддерживает облачной экспертизой 45 российских вузов: ВШЭ, РАНХиГС, СПБГЭТУ ЛЭТИ, КФУ, СПбПУ и многие другие. Грантовая программа поддержки науки и образования в области Computer Science работает с 2021 года. За это время было выдано уже более 100 грантов для научных исследований и ML-разработки в учебных проектах. Студенты и ученые запускали в Yandex Cloud систему мониторинга урожая, создавали алгоритм для беспилотного гоночного болида и исследовали тёмную материю.

2022: Yandex DataSphere 2.0 с измененной настройкой среды разработки

Облачная платформа Yandex Cloud 23 сентября 2022 года сообщила об открытии доступа к обновленной версии сервиса для разработки алгоритмов машинного обучения Yandex DataSphere 2.0.

В сервисе стало удобнее настраивать среду разработки и связывать между собой инструменты для всех этапов обучения ML-моделей – от подготовки данных до эксплуатации.

Это позволит быстрее обучать и выводить в продакшн алгоритмы машинного обучения. Обновленная версия Yandex DataSphere уже доступна текущим пользователям сервиса.

Все необходимые функции для полного цикла разработки моделей машинного обучения вынесены в обновленный графический интерфейс Yandex DataSphere. ML-специалист может создавать отдельный проект в сервисе, подключать к нему необходимые библиотеки, напрямую загружать данные из облачного хранилища и обрабатывать их для обучения.

Также в изменившемся интерфейсе Yandex DataSphere удобно управлять доступами к проекту и сохранять версии модели. По кнопке в сервисе доступен Jupiter Notebook, один из наиболее популярных инструментов ML-разработки. Позже в Yandex DataSphere появятся альтернативные редакторы для работы с кодом, например, Visual Studio Code.

Yandex DataSphere стал удобнее для командной работы. При этом к проектам можно подключать не только других ML-разработчиков, но и других специалистов, которые задействованы в работе с моделями машинного обучения. Например, теперь инженер поддержки может зайти в проект и скорректировать настройки для эксплуатации модели, а администратор – управлять настройками доступа прямо в Yandex DataSphere. У менеджеров проектов и аналитиков появилась возможность отслеживать, сколько ресурсов тратит команда на разработку моделей.

«
В машинном обучении важна скорость. Если быстрее обрабатываешь данные и проверяешь гипотезы, то и быстрее выводишь модели в production и приносишь пользу бизнесу. В данной версии Yandex DataSphere мы создали полноценное рабочее место дата-сайентистов. Сервис помогает оптимизировать весь цикл разработки, сосредоточиться на работе с кодом и на интеграции моделей в бизнес-процессы, – рассказал Алексей Башкеев, руководитель платформы Yandex Cloud.
»

Сервис использует технологию бессерверных вычислений: при редактировании и просмотре кода не задействуются мощности CPU (обычные процессоры) или GPU (графические процессоры), а виртуальная машина нужного типа подключается только на время непосредственных расчетов (обучение моделей, запуск и других вычислений). Это позволяет пользователю оплачивать вычислительные мощности только во время реального обучения. Время редактирования и просмотра кода, случайный простой машины не учитываются.

2020

Открытие общего доступа

Платформа Yandex.Cloud 23 октября 2020 года сообщила об открытии общего доступа к сервису для разработчиков машинного обучения Yandex DataSphere. Сервис помогает компаниям и индивидуальным разработчикам снизить стоимость создания и эксплуатации моделей машинного обучения, автоматически управлять объемом и типом вычислительных ресурсов, сократить потерю времени на создание и организацию среды разработки. В открытом доступе Yandex DataSphere будет с 1 октября.

Глобальные расходы компаний на искусственный интеллект по прогнозам IDC удвоятся в течение следующих четырех лет с 50 млрд долларов в 2020 году до 110 млрд долларов в 2024 году. Расходы российских компаний на ИИ составили по итогам 2019 года 172 млн долларов с прогнозом роста на 30% ежегодно. Разработки на базе машинного обучения уже активно применяют многие российские компании. Например, в медицине для создания решений анализа снимков, в ритейле для разработки рекомендательных систем.

«
«Методы машинного обучения становятся все более популярным инструментом для бизнеса во всем мире. Но для многих компаний он все еще недоступен из-за высокого порога входа и стоимости необходимых вычислительных ресурсов. Для решения этих задач мы создали DataSphere, где вы можете получить готовую ML-среду одним нажатием кнопки. В DataSphere доступны разные виды вычислительных ресурсов — от классических мощностей до GPU и распределенных вычислений, а тарификация происходит только за фактически потребленные серверные мощности во время выполнения ваших задач», — прокомментировал Алексей Башкеев, руководитель платформы Yandex.Cloud.
»

В Yandex DataSphere применена технология бессерверных вычислений при разработке моделей машинного обучения. Технология автоматизирует управление ресурсами и позволяет добиться значительной экономии. В DataSphere при редактировании и просмотре кода не задействуются вычислительные ресурсы CPU или GPU, виртуальная машина нужного типа подключается только на время непосредственных расчетов (обучение моделей, запуск, другие вычисления). В результате пользователь платит только за реально потребленный вычислительный ресурс. Время редактирования и просмотра кода, работа случайно не выключенной виртуальной машины не тарифицируется. По результатам тестирования DataSphere, в котором приняли участие 200 пользователей из различных сфер, время простоя вычислительных мощностей при разработке машинного обучения составляет 50—70%, рассказали в Yandex.Cloud. При использовании DataSphere это время не будет тарифицироваться.

Также в Yandex DataSphere реализовано бесшовное переключение между разными типами вычислительных ресурсов. Это значит, что в рамках одного сценария обучения модели пользователь может применять разные типы виртуальных машин - экономичные с обычными процессорами (CPU) и быстрее с GPU (графические ускорители). Прогресс обучения модели при этом сохранится. В большинстве облачных сред разработки машинного обучения расчет модели обучения может вестись только на машине одного типа.

Третья особенность DataSphere - сохранение версий расчетов модели, включая данные, код и состояния. Эта делает процесс разработки машинного обучения более выгодным для бизнеса: достигнутый прогресс в обучении не теряется, его можно воспроизвести при необходимости.

Открытие доступа к сервису Yandex DataSphere по предварительной регистрации

28 мая 2020 года компания Яндекс сообщила, что платформа Яндекс.Облако открывает доступ к сервису Yandex DataSphere для разработки машинного обучения. Сервис работает в режиме preview, доступ предоставляется по предварительной регистрации. Пользоваться Yandex DataSphere можно бесплатно.

«Яндекс.Облако» открывает доступ к сервису Yandex DataSphere

Yandex DataSphere — это облачная среда для использования инструментов машинного обучения. Разработчикам предлагается интерфейс Jupyter Notebook, одного из инструментов ML-разработки. При этом возможности Jupyter Notebook адаптированы к работе в облаке и расширены, отметили в Яндекс.

По данным на май 2020 года в закрытом тестировании Yandex DataSphere приняли участие 19 российских компаний, применяющих машинное обучение в бизнесе, и 31 индивидуальный разработчик. По мнению экспертов, сервис позволяет экономить до 70% ресурсов на вычисления с применением GPU, сообщили в Яндекс.

Со слов разработчика, Yandex DatаSphere использует технологию бессерверных вычислений (serverless computing) при работе с машинным обучением. Это значит, что при редактировании и просмотре кода не задействуются вычислительные ресурсы CPU или GPU. Виртуальная машина нужного типа подключается только для непосредственных расчётов: обучение моделей, запуск, другие вычисления. При таком подходе клиент платит только за время реального использования вычислительных ресурсов. Редактирование и просмотр кода, случайный простой не выключенной ночью или на выходных виртуальной машины не тарифицируется.

Также в Yandex DataSphere реализовано бесшовное переключение между разными типами вычислительных ресурсов. В Yandex DatаSphere можно без остановки вычислений и с сохранением прогресса применять разные типы виртуальных машин: экономичные с CPU (обычные процессоры) и быстрые с GPU (графические ускорители). В большинстве облачных сред разработки машинного обучения запустить расчёты модели возможно только на машине одного типа. Если часть вычислений требует использования более дорогой машины с GPU, на ней будет вычисляться весь проект. В Yandex DatаSphere каждая часть (ячейка) кода может быть исполнена на машине нужного типа, при этом результаты предыдущих вычислений сохранятся. Для переключения на машину другого типа не нужно запускать весь проект заново. Это, по мнению Яндекс, ускоряет разработку, снижает затраты и оптимизирует применение дорогих вычислительных ресурсов.

Согласно заявлению разработчика, когда стадия preview завершится и сервис будет запущен в коммерческую эксплуатацию, в DataSphere станет доступна ещё одна функция — сохранение версий расчётов моделей по трём измерениям: данные, код и состояние ноутбука. Функция упростит командную работу специалистов по данным, сделает ML-разработку более управляемым процессом для корпоративных пользователей. Также появится возможность проверить качество кода и получить рекомендации, как оптимально использовать вычислительные ресурсы.





Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год