| Спецификации NVIDIA L4 | |
|---|---|
| ФП 32 | 30.3 тераФЛОП |
| Тензорное ядро TF32 | 60 тераФЛОП |
| Тензорное ядро FP16 | 121 тераФЛОП |
| Тензорное ядро BFLOAT16 | 121 тераФЛОП |
| Тензорное ядро FP8 | 242.5 тераФЛОП |
| Тензорное ядро INT8 | 242.5 ПОП |
| Память графического процессора | 24 ГБ GDDR6 |
| Пропускная способность памяти GPU | 300 ГБ/с |
| Максимальная тепловая проектная мощность (TDP) | 72 Вт |
| Форма фактора | 1-слотная низкопрофильная PCIe |
| Соединение | PCIe Gen4 x16 |
| Схема спецификаций | L4 |
Разумеется, с ценой L4 где-то около 2500 долларов, A2 стоит примерно вдвое дешевле, а старый (но все еще довольно способный) T4 доступен менее чем за 1000 долларов,Очевидный вопрос в том, в чем разница между этими тремя выводами GPU..
| Спецификации NVIDIA L4, A2 и T4 | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| ФП 32 | 30.3 тераФЛОП | 4.5 тераФЛОП | 8.1 терафлопы |
| Тензорное ядро TF32 | 60 тераФЛОП | 9 тераФЛОП | Никаких |
| Тензорное ядро FP16 | 121 тераФЛОП | 18 тераФЛОП | Никаких |
| Тензорное ядро BFLOAT16 | 121 тераФЛОП | 18 тераФЛОП | Никаких |
| Тензорное ядро FP8 | 242.5 тераФЛОП | Никаких | Никаких |
| Тензорное ядро INT8 | 242.5 ПОП | 36 TOPS | 130 TOPS |
| Память графического процессора | 24 ГБ GDDR6 | 16 ГБ GDDR6 | 16 ГБ GDDR6 |
| Пропускная способность памяти GPU | 300 ГБ/с | 200 ГБ/с | 320+ ГБ/с |
| Максимальная тепловая проектная мощность (TDP) | 72 Вт | 40-60 Вт | 70 Вт |
| Форма фактора | 1-слотная низкопрофильная PCIe | ||
| Соединение | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
| Схема спецификаций | L4 | А2 | Т4 |
Одна вещь, которую нужно понять, когда смотришь на эти три карты, это то, что они не совсем заменяют друг друга по поколениям, что объясняет, почему T4 по-прежнему остается, много лет спустя,популярный выбор для некоторых случаев использованияA2 вышел на рынок в качестве замены для T4 как низкомощный и более совместимый вариант (x8 против x16 механический).с A2 пересекающийся между, что может или не может получить обновлен в какой-то момент в будущем.
MLPerf Inference 3.1 Производительность
MLPerf - это консорциум лидеров ИИ из научных кругов, исследований и промышленности, созданный для предоставления справедливых и релевантных стандартов аппаратного и программного обеспечения ИИ.Эти показатели предназначены для измерения производительности аппаратного обеспечения машинного обучения, программного обеспечения и услуг по различным задачам и сценариям.
Наши тесты сосредоточены на двух конкретных критериях MLPerf: Resnet50 и BERT.
- Resnet50: это скручивающаяся нейронная сеть, используемая в основном для классификации изображений.
- BERT (Bidirectional Encoder Representations from Transformers): Этот показатель ориентирован на задачи обработки естественного языка,предлагает представления о том, как система работает в понимании и обработке человеческого языка.
Оба этих теста имеют решающее значение для оценки возможностей оборудования ИИ в реальных сценариях, связанных с обработкой изображений и языка.
Оценка NVIDIA L4 с помощью этих критериев имеет решающее значение для понимания возможностей GPU L4 в конкретных задачах ИИ.Он также дает представление о том, как различные конфигурации (одинЭта информация жизненно важна для профессионалов и организаций, которые хотят оптимизировать свою инфраструктуру ИИ.
Модели работают в двух ключевых режимах: сервер и офлайн.
- Офлайн режим: этот режим измеряет производительность системы, когда все данные доступны для обработки одновременно.когда система обрабатывает большой набор данных в одной партииОффлайн режим имеет решающее значение для сценариев, где задержка не является основной проблемой, но пропускная способность и эффективность.
- Режим сервера: напротив, режим сервера оценивает производительность системы в сценарии, имитирующем реальную среду сервера, где запросы поступают по одному.измерение скорости ответа системы на каждый запросОн необходим для приложений в режиме реального времени, таких как веб-серверы или интерактивные приложения, где необходима немедленная реакция.
1 x NVIDIA L4 Dell PowerEdge XR7620
В рамках нашего недавнего обзора Dell PowerEdge XR7620, оснащенного одним NVIDIA L4, мы взяли его на край для выполнения нескольких задач, включая MLPerf.
Конфигурация нашей испытательной системы включала следующие компоненты:
- 2 x Xeon Gold 6426Y 16-ядерный 2,5 ГГц
- 1 x NVIDIA L4
- 8 x 16 ГБ DDR5
- 480 ГБ BOSS RAID1
- Сервер Ubuntu 22.04
- Драйвер NVIDIA 535
| Dell PowerEdge XR7620 1x NVIDIA L4 | Оценка |
|---|---|
| Сервер Resnet50 | 12,204.40 |
| Resnet50 Оффлайн | 13,010.20 |
| BERT K99 Сервер | 898.945 |
| BERT K99 ️ В автономном режиме | 973.435 |
Производительность в серверных и офлайн-сценариях для Resnet50 и BERT K99 практически идентична, что указывает на то, что L4 поддерживает стабильную производительность в различных моделях серверов.
1, 2 и 4 NVIDIA L4 ¢s ¢ Dell PowerEdge T560
Конфигурация нашего блока обзора включала следующие компоненты:
- 2 x Intel Xeon Gold 6448Y (32-ядерный/64-потока каждый, 225-ваттный TDP, 2,1-4,1 ГГц)
- 8 x 1,6 ТБ Solidigm P5520 SSD с картой PERC 12 RAID
- 1-4x графические процессоры NVIDIA L4
- 8 x 64 ГБ RDIMM
- Сервер Ubuntu 22.04
- Драйвер NVIDIA 535
| Dell PowerEdge T560 1x NVIDIA L4 | Оценка |
|---|---|
| Сервер Resnet50 | 12,204.40 |
| Resnet50 Оффлайн | 12,872.10 |
| Берт К99 Сервер | 898.945 |
| Берт К99 Оффлайн | 945.146 |
В наших тестах с двумя L4 в Dell T560 мы наблюдали это почти линейное масштабирование производительности как для Resnet50 и BERT K99 эталонов.Это масштабирование свидетельствует об эффективности L4 GPU и их способности работать в тандеме без значительных потерь из-за накладных расходов или неэффективности.
| Dell PowerEdge T560 2x NVIDIA L4 | Оценка |
|---|---|
| Сервер Resnet50 | 24,407.50 |
| Resnet50 Оффлайн | 25,463.20 |
| BERT K99 Сервер | 1,801.28 |
| BERT K99 ️ В автономном режиме | 1,904.10 |
Последовательное линейное масштабирование, которое мы наблюдали с двумя графическими процессорами NVIDIA L4, впечатляюще распространяется на конфигурации с четырьмя блоками L4. This scaling is particularly noteworthy as maintaining linear performance gains becomes increasingly challenging with each added GPU due to the complexities of parallel processing and resource management.
| Dell PowerEdge T560 4x NVIDIA L4 | Оценка |
|---|---|
| Сервер Resnet50 | 48,818.30 |
| Resnet50 Оффлайн | 51,381.70 |
| BERT K99 Сервер | 3,604.96 |
| BERT K99 ️ В автономном режиме | 3,821.46 |
Эти результаты предназначены только для иллюстративных целей, а не для соревнований или официальных результатов MLPerf.
В дополнение к проверке линейной масштабируемости графических процессоров NVIDIA L4, наши тесты в лаборатории проливают свет на практические последствия развертывания этих устройств в различных операционных сценариях.Например,, согласованность производительности между серверным и автономным режимами во всех конфигурациях с L4 графическими процессорами показывает их надежность и универсальность.
Этот аспект особенно актуален для предприятий и научно-исследовательских учреждений, где операционные контексты значительно различаются. our observations on the minimal impact of interconnect bottlenecks and the efficiency of GPU synchronization in multi-GPU setups provide valuable insights for those looking to scale their AI infrastructureЭти идеи выходят за рамки простых показателей, предлагая более глубокое понимание того, как такое оборудование может быть оптимально использовано в реальных сценариях,направление лучших архитектурных решений и инвестиционных стратегий в инфраструктуру ИИ и HPC.
NVIDIA L4 - производительность приложений
Мы сравнили производительность новой NVIDIA L4 с NVIDIA A2 и NVIDIA T4, которые были до нее.Мы развернули все три модели внутри сервера в нашей лаборатории, с Windows Server 2022 и новейшими драйверами NVIDIA, используя весь наш тест-пакет GPU.
Эти карты были протестированы на Dell Poweredge R760 с следующей конфигурацией:
- 2 x Intel Xeon Gold 6430 (32 ядра, 2.1 ГГц)
- Windows Server 2022
- Драйвер NVIDIA 538.15
- ECC отключен на всех картах для 1x отбора проб
Поскольку мы начинаем тестирование производительности между этой группой из трех корпоративных графических процессоров, важно отметить уникальные различия в производительности между более ранними моделями A2 и T4.Когда был выпущен A2, он предлагал некоторые заметные улучшения, такие как более низкое потребление энергии и работа на меньшем слоте PCIe Gen4 x8, вместо более крупного слота PCIe Gen3 x16, требуемого старым T4.Сразу же это позволило ему встраиваться в другие системы., особенно с меньшим необходимым отпечатком.
Блендер OptiX 4.0
Blender OptiX - это приложение для 3D-моделирования с открытым исходным кодом.Этот ориентир был запущен с помощью утилиты Blender Benchmark CLI. Счёт - это образцы в минуту, и если выше, то лучше.
| Блендер 4.0 (Больше - лучше) |
NVIDIA L4 | NVIDIA A2 | Nvidia T4 |
|---|---|---|---|
| ГПУ Блендер CLI Monster | 2,207.765 | 458.692 | 850.076 |
| GPU Blender CLI Junkshop | 1,127.829 | 292.553 | 517.243 |
| ГПУ Блендер CLI Classroom | 1,111.753 | 262.387 | 478.786 |
Тест скорости Blackmagic RAW
Мы тестируем процессоры и графические процессоры с помощью RAW Speed Test от Blackmagic, который тестирует скорость воспроизведения видео.Они отображаются в виде отдельных результатов, но мы сосредоточены только на графических процессорах здесь, так что результаты процессора пропускаются.
| Тест скорости Blackmagic RAW (Больше - лучше) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| 8K CUDA | 95 FPS | 38 FPS | 53 FPS |
Графический процессор Cinebench 2024
Maxon's Cinebench 2024 - это эталонный показатель рендеринга CPU и GPU, который использует все ядра и потоки CPU.Более высокие баллы - лучше.
| Киностудия 2024 (Больше - лучше) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| ГПУ | 15,263 | 4,006 | 5,644 |
GPU PI
ГПУПИ 3.3.3 - это версия легкого инструмента сравнения, предназначенного для расчета π (pi) до миллиардов десятичных знаков с использованием аппаратного ускорения через графические процессоры и процессоры.Он использует вычислительную мощность OpenCL и CUDA, которая включает в себя как центральные, так и графические процессоры.Мы запустили CUDA только на всех трех графических процессорах и цифры здесь - время расчета без времени сокращения.
| Время вычисления GPU PI в секундах (Ниже лучше) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| GPUPI v3.3 1B | 3.732 | 19.799 | 7.504s |
| GPUPI v3.3 32B | 244.380. | 1,210.801 | 486.231 |
В то время как предыдущие результаты рассматривали только одну итерацию каждой карты, у нас также была возможность посмотреть на 5x развертывание NVIDIA L4 внутри Dell PowerEdge T560.
| Время вычисления GPU PI в секундах (Ниже лучше) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) с 5x NVIDIA L4 |
|---|---|
| GPUPI v3.3 1B | 0sec 850ms |
| GPUPI v3.3 32B | 50 секунд 361 мс |
Октанебенч
OctaneBench - это утилита для сравнения для OctaneRender, другого 3D-рендера с поддержкой RTX, аналогичного V-Ray.
| Октановый показатель (более высокий - лучше) | ||||
| Сцена | Ядро | NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
| Внутренняя часть | Информационные каналы | 15.59 | 4.49 | 6.39 |
| Прямое освещение | 50.85 | 14.32 | 21.76 | |
| Отслеживание маршрута | 64.02 | 18.46 | 25.76 | |
| Идея. | Информационные каналы | 9.30 | 2.77 | 3.93 |
| Прямое освещение | 39.34 | 11.53 | 16.79 | |
| Отслеживание маршрута | 48.24 | 14.21 | 20.32 | |
| АТВ | Информационные каналы | 24.38 | 6.83 | 9.50 |
| Прямое освещение | 54.86 | 16.05 | 21.98 | |
| Отслеживание маршрута | 68.98 | 20.06 | 27.50 | |
| Коробка | Информационные каналы | 12.89 | 3.88 | 5.42 |
| Прямое освещение | 48.80 | 14.59 | 21.36 | |
| Отслеживание маршрута | 54.56 | 16.51 | 23.85 | |
| Общий балл | 491.83 | 143.71 | 204.56 | |
ГПУ Geekbench 6
Geekbench 6 - это кроссплатформенный бенчмарк, который измеряет общую производительность системы.Мы только посмотрели на результаты GPU.
Вы можете найти сравнения с любой системой в Geekbench.
| Гекбенч 6.1.0 (Больше - лучше) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Geekbench GPU OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMark - это кроссплатформенный инструмент сравнения OpenCL от тех, кто поддерживает движок рендеринга 3D с открытым исходным кодом LuxRender.Для этого обзора, мы использовали новейшую версию, v4alpha0.
| Luxmark v4.0alpha0 Графические процессоры OpenCL (Больше - лучше) |
NVIDIA L4 | NVIDIA A2 | NVIDIA T4 |
|---|---|---|---|
| Залская скамейка | 14,328 | 3,759 | 5,893 |
| Продовольственная скамейка | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
Мы также разработали GROMACS, программное обеспечение для молекулярной динамики, специально для CUDA.необходимо для ускорения вычислительных симуляций.
Процесс включал использование nvcc, компилятора CUDA от NVIDIA,вместе со многими итерациями соответствующих оптимальных флагов, чтобы убедиться, что двоичные файлы были правильно настроены на архитектуру сервераВключение поддержки CUDA в компиляцию GROMACS позволяет программному обеспечению напрямую взаимодействовать с аппаратным обеспечением GPU, что может значительно улучшить время вычислений для сложных симуляций.
Испытание: взаимодействие настраиваемых белков в громаках
Используя файл, предоставленный сообществом из нашего разнообразного Discord, который содержал параметры и структуры, созданные для конкретного исследования взаимодействия белков,Мы начали моделирование молекулярной динамики.Результаты были поразительными: система достигла скорости моделирования 170,268 наносекунд в день.
| ГПУ | Система | ns/день | Время (ы) работы ядра |
|---|---|---|---|
| NVIDIA A4000 | Белый ящик AMD Ryzen 5950x | 84.415 | 163,763 |
| RTX NVIDIA 4070 | Белый ящик AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
| 5x NVIDIA L4 | Dell T560 w/ 2x Intel Xeon Gold 6448Y | 170.268 | 608,912.7 |
Больше, чем ИИ
Сэнди Янг, директор по глобальной стратегии
WhatsApp / WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
С
Контактное лицо: Ms. Sandy Yang
Телефон: 13426366826



