logo
Главная страница Случаи

Обзор NVIDIA L4 GPU ️ Мастер низкомощного вывода

Сертификация
Китай Beijing Qianxing Jietong Technology Co., Ltd. Сертификаты
Китай Beijing Qianxing Jietong Technology Co., Ltd. Сертификаты
Просмотрения клиента
Торговый персонал CO. технологии Пекин Qianxing Jietong, Ltd очень профессионален и терпелив. Они могут обеспечить цитаты быстро. Качество и упаковка продуктов также очень хороши. Наше сотрудничество очень ровно.

—— LLC》 Festfing DV 《

Когда я искал C.P.U. intel и SSD Тошиба срочно, Sandy от CO. технологии Пекин Qianxing Jietong, Ltd дала мне много помощь и получила мне продукты мне быстро. Я действительно оцениваю ее.

—— Иены киски

Sandy CO. технологии Пекин Qianxing Jietong, Ltd очень осторожный продавец, который может напомнить меня об ошибок конфигурации во времени когда я покупаю сервер. Инженеры также очень профессиональны и могут быстро выполнить испытывая процесс.

—— Strelkin Mikhail Vladimirovich

Мы очень довольны нашим опытом работы с Beijing Qianxing Jietong. Качество продукции отличное, и доставка всегда вовремя. Их отдел продаж профессионален, терпелив и очень полезен во всех наших вопросах. Мы искренне ценим их поддержку и надеемся на долгосрочное партнерство. Настоятельно рекомендуется!

—— Ахмад Навид

Качество: Очень хороший опыт работы с моим поставщиком. МикроТик RB3011 уже использовался, но он был в очень хорошем состоянии и все работало идеально.и все мои проблемы были решены быстро- Очень надежный поставщик. - Очень рекомендую.

—— Джеран Колесио

Оставьте нам сообщение

Обзор NVIDIA L4 GPU ️ Мастер низкомощного вывода

March 13, 2026
В непрекращающейся волне инноваций в современном искусственном интеллекте измерение и понимание возможностей различных аппаратных платформ имеет решающее значение.Не все приложения ИИ требуют массивных тренировочных ферм для GPU, существует жизненно важный сегмент выводов ИИ, который часто требует меньшей мощности GPU.В этом обзоре мы исследуем несколько графических процессоров NVIDIA L4 на трех различных серверах Dell и ряд рабочих нагрузок, включая MLperf, чтобы оценить производительность L4.
 
последний случай компании о Обзор NVIDIA L4 GPU ️ Мастер низкомощного вывода  0
 
NVIDIA L4
GPU NVIDIA L4
В своей основе L4 обеспечивает впечатляющие 30,3 тераFLOP производительности FP32, что делает его идеальным для высокоточных вычислительных задач.,FP16 и BFLOAT16 Тенсорные ядра – критические характеристики для повышения эффективности глубокого обучения.
 
L4 превосходит в задачах с низкой точностью, обладая 242,5 тераFLOP с его тенсорными ядрами FP8 и INT8, которые значительно повышают производительность выводов нейронной сети.Оснащен 24 ГБ памяти GDDR6 и пропускной способностью 300 ГБ/с, он может легко обрабатывать большие наборы данных и сложные модели.Он хорошо подходит для широкого спектра вычислительных сред.Это сочетание высокой производительности, эффективности памяти и низкого энергопотребления делает NVIDIA L4 привлекательным вариантом для решения проблем краевых вычислений.
 
последний случай компании о Обзор NVIDIA L4 GPU ️ Мастер низкомощного вывода  1
 
Спецификации NVIDIA L4
ФП 32 30.3 тераФЛОП
Тензорное ядро TF32 60 тераФЛОП
Тензорное ядро FP16 121 тераФЛОП
Тензорное ядро BFLOAT16 121 тераФЛОП
Тензорное ядро FP8 242.5 тераФЛОП
Тензорное ядро INT8 242.5 ПОП
Память графического процессора 24 ГБ GDDR6
Пропускная способность памяти GPU 300 ГБ/с
Максимальная тепловая проектная мощность (TDP) 72 Вт
Форма фактора 1-слотная низкопрофильная PCIe
Соединение PCIe Gen4 x16
Схема спецификаций L4

 

 

Разумеется, с ценой L4 где-то около 2500 долларов, A2 стоит примерно вдвое дешевле, а старый (но все еще довольно способный) T4 доступен менее чем за 1000 долларов,Очевидный вопрос в том, в чем разница между этими тремя выводами GPU..

Спецификации NVIDIA L4, A2 и T4 NVIDIA L4 NVIDIA A2 NVIDIA T4
ФП 32 30.3 тераФЛОП 4.5 тераФЛОП 8.1 терафлопы
Тензорное ядро TF32 60 тераФЛОП 9 тераФЛОП Никаких
Тензорное ядро FP16 121 тераФЛОП 18 тераФЛОП Никаких
Тензорное ядро BFLOAT16 121 тераФЛОП 18 тераФЛОП Никаких
Тензорное ядро FP8 242.5 тераФЛОП Никаких Никаких
Тензорное ядро INT8 242.5 ПОП 36 TOPS 130 TOPS
Память графического процессора 24 ГБ GDDR6 16 ГБ GDDR6 16 ГБ GDDR6
Пропускная способность памяти GPU 300 ГБ/с 200 ГБ/с 320+ ГБ/с
Максимальная тепловая проектная мощность (TDP) 72 Вт 40-60 Вт 70 Вт
Форма фактора 1-слотная низкопрофильная PCIe
Соединение PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
Схема спецификаций L4 А2 Т4

 

 

Одна вещь, которую нужно понять, когда смотришь на эти три карты, это то, что они не совсем заменяют друг друга по поколениям, что объясняет, почему T4 по-прежнему остается, много лет спустя,популярный выбор для некоторых случаев использованияA2 вышел на рынок в качестве замены для T4 как низкомощный и более совместимый вариант (x8 против x16 механический).с A2 пересекающийся между, что может или не может получить обновлен в какой-то момент в будущем.

MLPerf Inference 3.1 Производительность

MLPerf - это консорциум лидеров ИИ из научных кругов, исследований и промышленности, созданный для предоставления справедливых и релевантных стандартов аппаратного и программного обеспечения ИИ.Эти показатели предназначены для измерения производительности аппаратного обеспечения машинного обучения, программного обеспечения и услуг по различным задачам и сценариям.

Наши тесты сосредоточены на двух конкретных критериях MLPerf: Resnet50 и BERT.

  • Resnet50: это скручивающаяся нейронная сеть, используемая в основном для классификации изображений.
  • BERT (Bidirectional Encoder Representations from Transformers): Этот показатель ориентирован на задачи обработки естественного языка,предлагает представления о том, как система работает в понимании и обработке человеческого языка.

Оба этих теста имеют решающее значение для оценки возможностей оборудования ИИ в реальных сценариях, связанных с обработкой изображений и языка.

Оценка NVIDIA L4 с помощью этих критериев имеет решающее значение для понимания возможностей GPU L4 в конкретных задачах ИИ.Он также дает представление о том, как различные конфигурации (одинЭта информация жизненно важна для профессионалов и организаций, которые хотят оптимизировать свою инфраструктуру ИИ.

Модели работают в двух ключевых режимах: сервер и офлайн.

  • Офлайн режим: этот режим измеряет производительность системы, когда все данные доступны для обработки одновременно.когда система обрабатывает большой набор данных в одной партииОффлайн режим имеет решающее значение для сценариев, где задержка не является основной проблемой, но пропускная способность и эффективность.
  • Режим сервера: напротив, режим сервера оценивает производительность системы в сценарии, имитирующем реальную среду сервера, где запросы поступают по одному.измерение скорости ответа системы на каждый запросОн необходим для приложений в режиме реального времени, таких как веб-серверы или интерактивные приложения, где необходима немедленная реакция.

1 x NVIDIA L4 Dell PowerEdge XR7620

 

последний случай компании о Обзор NVIDIA L4 GPU ️ Мастер низкомощного вывода  2

В рамках нашего недавнего обзора Dell PowerEdge XR7620, оснащенного одним NVIDIA L4, мы взяли его на край для выполнения нескольких задач, включая MLPerf.

Конфигурация нашей испытательной системы включала следующие компоненты:

  • 2 x Xeon Gold 6426Y 16-ядерный 2,5 ГГц
  • 1 x NVIDIA L4
  • 8 x 16 ГБ DDR5
  • 480 ГБ BOSS RAID1
  • Сервер Ubuntu 22.04
  • Драйвер NVIDIA 535
Dell PowerEdge XR7620 1x NVIDIA L4 Оценка
Сервер Resnet50 12,204.40
Resnet50 Оффлайн 13,010.20
BERT K99 Сервер 898.945
BERT K99 ️ В автономном режиме 973.435

 

 

Производительность в серверных и офлайн-сценариях для Resnet50 и BERT K99 практически идентична, что указывает на то, что L4 поддерживает стабильную производительность в различных моделях серверов.

1, 2 и 4 NVIDIA L4 ¢s ¢ Dell PowerEdge T560

последний случай компании о Обзор NVIDIA L4 GPU ️ Мастер низкомощного вывода  3

Конфигурация нашего блока обзора включала следующие компоненты:

  • 2 x Intel Xeon Gold 6448Y (32-ядерный/64-потока каждый, 225-ваттный TDP, 2,1-4,1 ГГц)
  • 8 x 1,6 ТБ Solidigm P5520 SSD с картой PERC 12 RAID
  • 1-4x графические процессоры NVIDIA L4
  • 8 x 64 ГБ RDIMM
  • Сервер Ubuntu 22.04
  • Драйвер NVIDIA 535
Возвращаясь к центру обработки данных с края и используя универсальный сервер Dell T560 Tower, мы заметили, что L4 работает так же хорошо в одиночном тесте GPU.Это показывает, что обе платформы могут обеспечить прочную основу для L4 без узких мест.
 
Dell PowerEdge T560 1x NVIDIA L4 Оценка
Сервер Resnet50 12,204.40
Resnet50 Оффлайн 12,872.10
Берт К99 Сервер 898.945
Берт К99 Оффлайн 945.146

 

 

В наших тестах с двумя L4 в Dell T560 мы наблюдали это почти линейное масштабирование производительности как для Resnet50 и BERT K99 эталонов.Это масштабирование свидетельствует об эффективности L4 GPU и их способности работать в тандеме без значительных потерь из-за накладных расходов или неэффективности.

Dell PowerEdge T560 2x NVIDIA L4 Оценка
Сервер Resnet50 24,407.50
Resnet50 Оффлайн 25,463.20
BERT K99 Сервер 1,801.28
BERT K99 ️ В автономном режиме 1,904.10

 

 

Последовательное линейное масштабирование, которое мы наблюдали с двумя графическими процессорами NVIDIA L4, впечатляюще распространяется на конфигурации с четырьмя блоками L4. This scaling is particularly noteworthy as maintaining linear performance gains becomes increasingly challenging with each added GPU due to the complexities of parallel processing and resource management.

Dell PowerEdge T560 4x NVIDIA L4 Оценка
Сервер Resnet50 48,818.30
Resnet50 Оффлайн 51,381.70
BERT K99 Сервер 3,604.96
BERT K99 ️ В автономном режиме 3,821.46

 

 

Эти результаты предназначены только для иллюстративных целей, а не для соревнований или официальных результатов MLPerf.

В дополнение к проверке линейной масштабируемости графических процессоров NVIDIA L4, наши тесты в лаборатории проливают свет на практические последствия развертывания этих устройств в различных операционных сценариях.Например,, согласованность производительности между серверным и автономным режимами во всех конфигурациях с L4 графическими процессорами показывает их надежность и универсальность.

Этот аспект особенно актуален для предприятий и научно-исследовательских учреждений, где операционные контексты значительно различаются. our observations on the minimal impact of interconnect bottlenecks and the efficiency of GPU synchronization in multi-GPU setups provide valuable insights for those looking to scale their AI infrastructureЭти идеи выходят за рамки простых показателей, предлагая более глубокое понимание того, как такое оборудование может быть оптимально использовано в реальных сценариях,направление лучших архитектурных решений и инвестиционных стратегий в инфраструктуру ИИ и HPC.

NVIDIA L4 - производительность приложений

Мы сравнили производительность новой NVIDIA L4 с NVIDIA A2 и NVIDIA T4, которые были до нее.Мы развернули все три модели внутри сервера в нашей лаборатории, с Windows Server 2022 и новейшими драйверами NVIDIA, используя весь наш тест-пакет GPU.

Эти карты были протестированы на Dell Poweredge R760 с следующей конфигурацией:

  • 2 x Intel Xeon Gold 6430 (32 ядра, 2.1 ГГц)
  • Windows Server 2022
  • Драйвер NVIDIA 538.15
  • ECC отключен на всех картах для 1x отбора проб
последний случай компании о Обзор NVIDIA L4 GPU ️ Мастер низкомощного вывода  4

Поскольку мы начинаем тестирование производительности между этой группой из трех корпоративных графических процессоров, важно отметить уникальные различия в производительности между более ранними моделями A2 и T4.Когда был выпущен A2, он предлагал некоторые заметные улучшения, такие как более низкое потребление энергии и работа на меньшем слоте PCIe Gen4 x8, вместо более крупного слота PCIe Gen3 x16, требуемого старым T4.Сразу же это позволило ему встраиваться в другие системы., особенно с меньшим необходимым отпечатком.

Блендер OptiX 4.0

Blender OptiX - это приложение для 3D-моделирования с открытым исходным кодом.Этот ориентир был запущен с помощью утилиты Blender Benchmark CLI. Счёт - это образцы в минуту, и если выше, то лучше.

Блендер 4.0
(Больше - лучше)
NVIDIA L4 NVIDIA A2 Nvidia T4
ГПУ Блендер CLI Monster 2,207.765 458.692 850.076
GPU Blender CLI Junkshop 1,127.829 292.553 517.243
ГПУ Блендер CLI Classroom 1,111.753 262.387 478.786

 

 

Тест скорости Blackmagic RAW

Мы тестируем процессоры и графические процессоры с помощью RAW Speed Test от Blackmagic, который тестирует скорость воспроизведения видео.Они отображаются в виде отдельных результатов, но мы сосредоточены только на графических процессорах здесь, так что результаты процессора пропускаются.

Тест скорости Blackmagic RAW
(Больше - лучше)
NVIDIA L4 NVIDIA A2 NVIDIA T4
8K CUDA 95 FPS 38 FPS 53 FPS

Графический процессор Cinebench 2024

Maxon's Cinebench 2024 - это эталонный показатель рендеринга CPU и GPU, который использует все ядра и потоки CPU.Более высокие баллы - лучше.

Киностудия 2024
(Больше - лучше)
NVIDIA L4 NVIDIA A2 NVIDIA T4
ГПУ 15,263 4,006 5,644

GPU PI

ГПУПИ 3.3.3 - это версия легкого инструмента сравнения, предназначенного для расчета π (pi) до миллиардов десятичных знаков с использованием аппаратного ускорения через графические процессоры и процессоры.Он использует вычислительную мощность OpenCL и CUDA, которая включает в себя как центральные, так и графические процессоры.Мы запустили CUDA только на всех трех графических процессорах и цифры здесь - время расчета без времени сокращения.

Время вычисления GPU PI в секундах
(Ниже лучше)
NVIDIA L4 NVIDIA A2 NVIDIA T4
GPUPI v3.3 1B 3.732 19.799 7.504s
GPUPI v3.3 32B 244.380. 1,210.801 486.231

В то время как предыдущие результаты рассматривали только одну итерацию каждой карты, у нас также была возможность посмотреть на 5x развертывание NVIDIA L4 внутри Dell PowerEdge T560.

Время вычисления GPU PI в секундах
(Ниже лучше)
Dell PowerEdge T560 (2x Xeon Gold 6448Y) с 5x NVIDIA L4
GPUPI v3.3 1B 0sec 850ms
GPUPI v3.3 32B 50 секунд 361 мс

 

 

Октанебенч

OctaneBench - это утилита для сравнения для OctaneRender, другого 3D-рендера с поддержкой RTX, аналогичного V-Ray.

Октановый показатель (более высокий - лучше)
Сцена Ядро NVIDIA L4 NVIDIA A2 NVIDIA T4
Внутренняя часть Информационные каналы 15.59 4.49 6.39
  Прямое освещение 50.85 14.32 21.76
  Отслеживание маршрута 64.02 18.46 25.76
Идея. Информационные каналы 9.30 2.77 3.93
  Прямое освещение 39.34 11.53 16.79
  Отслеживание маршрута 48.24 14.21 20.32
АТВ Информационные каналы 24.38 6.83 9.50
  Прямое освещение 54.86 16.05 21.98
  Отслеживание маршрута 68.98 20.06 27.50
Коробка Информационные каналы 12.89 3.88 5.42
  Прямое освещение 48.80 14.59 21.36
  Отслеживание маршрута 54.56 16.51 23.85
Общий балл 491.83 143.71 204.56

 

 

ГПУ Geekbench 6

Geekbench 6 - это кроссплатформенный бенчмарк, который измеряет общую производительность системы.Мы только посмотрели на результаты GPU.

Вы можете найти сравнения с любой системой в Geekbench.

Гекбенч 6.1.0
(Больше - лучше)
NVIDIA L4 NVIDIA A2 NVIDIA T4
Geekbench GPU OpenCL 156,224 35,835 83,046

Luxmark

LuxMark - это кроссплатформенный инструмент сравнения OpenCL от тех, кто поддерживает движок рендеринга 3D с открытым исходным кодом LuxRender.Для этого обзора, мы использовали новейшую версию, v4alpha0.

Luxmark v4.0alpha0
Графические процессоры OpenCL
(Больше - лучше)
NVIDIA L4 NVIDIA A2 NVIDIA T4
Залская скамейка 14,328 3,759 5,893
Продовольственная скамейка 5,330 1,258 2,033

GROMACS CUDA

Мы также разработали GROMACS, программное обеспечение для молекулярной динамики, специально для CUDA.необходимо для ускорения вычислительных симуляций.

Процесс включал использование nvcc, компилятора CUDA от NVIDIA,вместе со многими итерациями соответствующих оптимальных флагов, чтобы убедиться, что двоичные файлы были правильно настроены на архитектуру сервераВключение поддержки CUDA в компиляцию GROMACS позволяет программному обеспечению напрямую взаимодействовать с аппаратным обеспечением GPU, что может значительно улучшить время вычислений для сложных симуляций.

Испытание: взаимодействие настраиваемых белков в громаках

Используя файл, предоставленный сообществом из нашего разнообразного Discord, который содержал параметры и структуры, созданные для конкретного исследования взаимодействия белков,Мы начали моделирование молекулярной динамики.Результаты были поразительными: система достигла скорости моделирования 170,268 наносекунд в день.

ГПУ Система ns/день Время (ы) работы ядра
NVIDIA A4000 Белый ящик AMD Ryzen 5950x 84.415 163,763
RTX NVIDIA 4070 Белый ящик AMD Ryzen 7950x3d 131.85 209,692.3
5x NVIDIA L4 Dell T560 w/ 2x Intel Xeon Gold 6448Y 170.268 608,912.7

Больше, чем ИИ

В непрекращающейся волне инноваций в современном искусственном интеллекте измерение и понимание возможностей различных аппаратных платформ имеет решающее значение.Не все приложения ИИ требуют массивных тренировочных ферм для GPU, существует жизненно важный сегмент выводов ИИ, который часто требует меньшей мощности GPU.В этом обзоре мы исследуем несколько графических процессоров NVIDIA L4 на трех различных серверах Dell и ряд рабочих нагрузок, включая MLperf, чтобы оценить производительность L4.
 
NVIDIA L4
GPU NVIDIA L4
В своей основе L4 обеспечивает впечатляющие 30,3 тераFLOP производительности FP32, что делает его идеальным для высокоточных вычислительных задач.,FP16 и BFLOAT16 Тенсорные ядра – критические характеристики для повышения эффективности глубокого обучения.
 
L4 превосходит в задачах с низкой точностью, обладая 242,5 тераFLOP с его тенсорными ядрами FP8 и INT8, которые значительно повышают производительность выводов нейронной сети.Оснащен 24 ГБ памяти GDDR6 и пропускной способностью 300 ГБ/с, он может легко обрабатывать большие наборы данных и сложные модели.Он хорошо подходит для широкого спектра вычислительных сред.Это сочетание высокой производительности, эффективности памяти и низкого энергопотребления делает NVIDIA L4 привлекательным вариантом для решения проблем краевых вычислений.
 
В то время как ажиотаж вокруг искусственного интеллекта достигает своего пика, легко зацикливаться только на производительности L4 с моделями искусственного интеллекта, но у него есть еще несколько трюков в рукаве,раскрывая мир возможностей для видеоприложенийL4 может принимать до 1040 одновременных видеопотоков AV1 на 720p30, что может изменить способ потоковой передачи контента пользователям, повысить креативность рассказа,и позволить захватывающие случаи использования для захватывающих опытов AR / VR.
 
NVIDIA L4 также блестит, когда дело доходит до оптимизации графической производительности, о чем свидетельствует его мастерство в рендеринге в реальном времени и отслеживании лучей.L4 способен обеспечить надежную, высокопроизводительное графическое ускорение вычислений для VDI, обслуживающее конечных пользователей, которые полагаются на высококачественное графическое рендеринг в режиме реального времени для своей работы.
 
Заключительные мысли
GPU NVIDIA L4 обеспечивает прочную основу для краевого ИИ и высокопроизводительных вычислений, предлагая непревзойденную эффективность и универсальность для широкого спектра приложений.Его способность обрабатывать интенсивные нагрузки на ИИ, задачи по ускорению или видеопроводов, вместе с его оптимизированной графической производительностью, делает его идеальным выбором для краевого вывода или ускорения виртуального рабочего стола.Уникальное сочетание высокой вычислительной мощности L4, расширенные возможности памяти и энергоэффективность позиционируют его как ключевого игрока в ускорении рабочей нагрузки, особенно в ИИ и графической промышленности.
 
последний случай компании о Обзор NVIDIA L4 GPU ️ Мастер низкомощного вывода  5
 
NVIDIA L4 twist stack
Нельзя отрицать, что ИИ находится в центре нынешней IT-бури, и спрос на высококачественные графические процессоры H100/H200 остается высоким.Также существует значительный толчок к развертыванию более надежной ИТ-инфраструктуры на краю, где генерируются и анализируются данныеВ этих сценариях требуется более подходящий размер графического процессора, и NVIDIA L4 превосходит здесь.независимо от того, развертываются ли они как единое подразделение или совместно., как мы проверили в T560.
 
Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг, директор по глобальной стратегии
WhatsApp / WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
С
Контактная информация
Beijing Qianxing Jietong Technology Co., Ltd.

Контактное лицо: Ms. Sandy Yang

Телефон: 13426366826

Оставьте вашу заявку (0 / 3000)