Nvidia Triton Inference Server

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: Nvidia (Нвидиа)
Дата последнего релиза: ноябрь 2021
Отрасли: Электротехника и микроэлектроника

Сервер для инференса Nvidia Triton (прежнее название TensorRT) — это открытое программное обеспечение для развертывания моделей глубокого обучения в рабочей среде. Сервер для инференса Triton позволяет командам развертывать подготовленные модели ИИ из фреймворков (TensorFlow, PyTorch, TensorRT Plan, Caffe, MXNet или Custom) локального хранилища, платформы Google Cloud или AWS S3 на любой инфраструктуре на базе GPU или CPU. Сервер одновременно запускает несколько моделей на одном GPU, чтобы повысить утилизацию, и интегрируется с Kubernetes для оркестрации, управления параметрами и автоматического масштабирования.

2021: Поддержка нескольких GPU

На конференции GTC в ноябре 2021 года Nvidia представила обновление Triton Inference Server. Теперь он поддерживает несколько GPU и узлов, что позволяет распределять рабочие нагрузки инференса для LLM между многими графическими процессорами и узлами в реальном времени. Для таких моделей требуется больше памяти, чем доступно в одном GPU или даже в большом сервере с несколькими GPU, а инференс должен выполняться быстро.

Также была представлена Megatron 530B – кастомизируемая большая языковая модель, которую можно обучать для новых предметных областей и новых языков. С Triton Inference Server модель Megatron 530B может работать на двух системах Nvidia DGX, чтобы сократить время обработки с минуты на CPU-сервере до половины секунды. Это может позволить развертывать LLM для приложений реального времени.

Полный список анонсов ноябрьской GTC 2021 доступен здесь.



СМ. ТАКЖЕ (1)