Обзор NVIDIA L4 GPU ️ Мастер низкомощного вывода

Все продукты

Сервер хранения шкафа
(179)

Сервер сплавливания Huawei
(31)

Сервер Dell Poweredge
(59)

Сервер H3C
(31)

Переключатели Datacom
(96)

Прибор WLAN
(21)

Умный беспроводной маршрутизатор
(17)

Жесткий диск HDD
(78)

Внутренний SSD жесткого диска
(16)

Карта Geforce графическая
(27)

Процессор C.P.U. INTEL
(20)

RAM памяти сервера
(6)

Приведенный сервер хранения
(6)

Модуль приемопередатчика SFP
(4)

Переключение каналов волокна
(125)

Сертификация

Китай Beijing Qianxing Jietong Technology Co., Ltd. Сертификаты

Просмотрения клиента

Торговый персонал CO. технологии Пекин Qianxing Jietong, Ltd очень профессионален и терпелив. Они могут обеспечить цитаты быстро. Качество и упаковка продуктов также очень хороши. Наше сотрудничество очень ровно.

—— LLC》 Festfing DV 《

Когда я искал C.P.U. intel и SSD Тошиба срочно, Sandy от CO. технологии Пекин Qianxing Jietong, Ltd дала мне много помощь и получила мне продукты мне быстро. Я действительно оцениваю ее.

—— Иены киски

Sandy CO. технологии Пекин Qianxing Jietong, Ltd очень осторожный продавец, который может напомнить меня об ошибок конфигурации во времени когда я покупаю сервер. Инженеры также очень профессиональны и могут быстро выполнить испытывая процесс.

—— Strelkin Mikhail Vladimirovich

Мы очень довольны нашим опытом работы с Beijing Qianxing Jietong. Качество продукции отличное, и доставка всегда вовремя. Их отдел продаж профессионален, терпелив и очень полезен во всех наших вопросах. Мы искренне ценим их поддержку и надеемся на долгосрочное партнерство. Настоятельно рекомендуется!

—— Ахмад Навид

Качество: Очень хороший опыт работы с моим поставщиком. МикроТик RB3011 уже использовался, но он был в очень хорошем состоянии и все работало идеально.и все мои проблемы были решены быстро- Очень надежный поставщик. - Очень рекомендую.

—— Джеран Колесио

Оставьте нам сообщение

Обзор NVIDIA L4 GPU ️ Мастер низкомощного вывода

March 13, 2026

В непрекращающейся волне инноваций в современном искусственном интеллекте измерение и понимание возможностей различных аппаратных платформ имеет решающее значение.Не все приложения ИИ требуют массивных тренировочных ферм для GPU, существует жизненно важный сегмент выводов ИИ, который часто требует меньшей мощности GPU.В этом обзоре мы исследуем несколько графических процессоров NVIDIA L4 на трех различных серверах Dell и ряд рабочих нагрузок, включая MLperf, чтобы оценить производительность L4.

NVIDIA L4

GPU NVIDIA L4

В своей основе L4 обеспечивает впечатляющие 30,3 тераFLOP производительности FP32, что делает его идеальным для высокоточных вычислительных задач.,FP16 и BFLOAT16 Тенсорные ядра критические характеристики для повышения эффективности глубокого обучения.

L4 превосходит в задачах с низкой точностью, обладая 242,5 тераFLOP с его тенсорными ядрами FP8 и INT8, которые значительно повышают производительность выводов нейронной сети.Оснащен 24 ГБ памяти GDDR6 и пропускной способностью 300 ГБ/с, он может легко обрабатывать большие наборы данных и сложные модели.Он хорошо подходит для широкого спектра вычислительных сред.Это сочетание высокой производительности, эффективности памяти и низкого энергопотребления делает NVIDIA L4 привлекательным вариантом для решения проблем краевых вычислений.

Спецификации NVIDIA L4
ФП 32	30.3 тераФЛОП
Тензорное ядро TF32	60 тераФЛОП
Тензорное ядро FP16	121 тераФЛОП
Тензорное ядро BFLOAT16	121 тераФЛОП
Тензорное ядро FP8	242.5 тераФЛОП
Тензорное ядро INT8	242.5 ПОП
Память графического процессора	24 ГБ GDDR6
Пропускная способность памяти GPU	300 ГБ/с
Максимальная тепловая проектная мощность (TDP)	72 Вт
Форма фактора	1-слотная низкопрофильная PCIe
Соединение	PCIe Gen4 x16
Схема спецификаций	L4

Разумеется, с ценой L4 где-то около 2500 долларов, A2 стоит примерно вдвое дешевле, а старый (но все еще довольно способный) T4 доступен менее чем за 1000 долларов,Очевидный вопрос в том, в чем разница между этими тремя выводами GPU..

Спецификации NVIDIA L4, A2 и T4	NVIDIA L4	NVIDIA A2	NVIDIA T4
ФП 32	30.3 тераФЛОП	4.5 тераФЛОП	8.1 терафлопы
Тензорное ядро TF32	60 тераФЛОП	9 тераФЛОП	Никаких
Тензорное ядро FP16	121 тераФЛОП	18 тераФЛОП	Никаких
Тензорное ядро BFLOAT16	121 тераФЛОП	18 тераФЛОП	Никаких
Тензорное ядро FP8	242.5 тераФЛОП	Никаких	Никаких
Тензорное ядро INT8	242.5 ПОП	36 TOPS	130 TOPS
Память графического процессора	24 ГБ GDDR6	16 ГБ GDDR6	16 ГБ GDDR6
Пропускная способность памяти GPU	300 ГБ/с	200 ГБ/с	320+ ГБ/с
Максимальная тепловая проектная мощность (TDP)	72 Вт	40-60 Вт	70 Вт
Форма фактора	1-слотная низкопрофильная PCIe
Соединение	PCIe Gen4 x16	PCIe Gen4 x8	PCIe Gen3 x16
Схема спецификаций	L4	А2	Т4

Одна вещь, которую нужно понять, когда смотришь на эти три карты, это то, что они не совсем заменяют друг друга по поколениям, что объясняет, почему T4 по-прежнему остается, много лет спустя,популярный выбор для некоторых случаев использованияA2 вышел на рынок в качестве замены для T4 как низкомощный и более совместимый вариант (x8 против x16 механический).с A2 пересекающийся между, что может или не может получить обновлен в какой-то момент в будущем.

MLPerf Inference 3.1 Производительность

MLPerf - это консорциум лидеров ИИ из научных кругов, исследований и промышленности, созданный для предоставления справедливых и релевантных стандартов аппаратного и программного обеспечения ИИ.Эти показатели предназначены для измерения производительности аппаратного обеспечения машинного обучения, программного обеспечения и услуг по различным задачам и сценариям.

Наши тесты сосредоточены на двух конкретных критериях MLPerf: Resnet50 и BERT.

Resnet50: это скручивающаяся нейронная сеть, используемая в основном для классификации изображений.
BERT (Bidirectional Encoder Representations from Transformers): Этот показатель ориентирован на задачи обработки естественного языка,предлагает представления о том, как система работает в понимании и обработке человеческого языка.

Оба этих теста имеют решающее значение для оценки возможностей оборудования ИИ в реальных сценариях, связанных с обработкой изображений и языка.

Оценка NVIDIA L4 с помощью этих критериев имеет решающее значение для понимания возможностей GPU L4 в конкретных задачах ИИ.Он также дает представление о том, как различные конфигурации (одинЭта информация жизненно важна для профессионалов и организаций, которые хотят оптимизировать свою инфраструктуру ИИ.

Модели работают в двух ключевых режимах: сервер и офлайн.

Офлайн режим: этот режим измеряет производительность системы, когда все данные доступны для обработки одновременно.когда система обрабатывает большой набор данных в одной партииОффлайн режим имеет решающее значение для сценариев, где задержка не является основной проблемой, но пропускная способность и эффективность.
Режим сервера: напротив, режим сервера оценивает производительность системы в сценарии, имитирующем реальную среду сервера, где запросы поступают по одному.измерение скорости ответа системы на каждый запросОн необходим для приложений в режиме реального времени, таких как веб-серверы или интерактивные приложения, где необходима немедленная реакция.

1 x NVIDIA L4 Dell PowerEdge XR7620

В рамках нашего недавнего обзора Dell PowerEdge XR7620, оснащенного одним NVIDIA L4, мы взяли его на край для выполнения нескольких задач, включая MLPerf.

Конфигурация нашей испытательной системы включала следующие компоненты:

2 x Xeon Gold 6426Y 16-ядерный 2,5 ГГц
1 x NVIDIA L4
8 x 16 ГБ DDR5
480 ГБ BOSS RAID1
Сервер Ubuntu 22.04
Драйвер NVIDIA 535

Dell PowerEdge XR7620 1x NVIDIA L4	Оценка
Сервер Resnet50	12,204.40
Resnet50 Оффлайн	13,010.20
BERT K99 Сервер	898.945
BERT K99 ️ В автономном режиме	973.435

Производительность в серверных и офлайн-сценариях для Resnet50 и BERT K99 практически идентична, что указывает на то, что L4 поддерживает стабильную производительность в различных моделях серверов.

1, 2 и 4 NVIDIA L4 ¢s ¢ Dell PowerEdge T560

Конфигурация нашего блока обзора включала следующие компоненты:

2 x Intel Xeon Gold 6448Y (32-ядерный/64-потока каждый, 225-ваттный TDP, 2,1-4,1 ГГц)
8 x 1,6 ТБ Solidigm P5520 SSD с картой PERC 12 RAID
1-4x графические процессоры NVIDIA L4
8 x 64 ГБ RDIMM
Сервер Ubuntu 22.04
Драйвер NVIDIA 535

Возвращаясь к центру обработки данных с края и используя универсальный сервер Dell T560 Tower, мы заметили, что L4 работает так же хорошо в одиночном тесте GPU.Это показывает, что обе платформы могут обеспечить прочную основу для L4 без узких мест.

Dell PowerEdge T560 1x NVIDIA L4	Оценка
Сервер Resnet50	12,204.40
Resnet50 Оффлайн	12,872.10
Берт К99 Сервер	898.945
Берт К99 Оффлайн	945.146

В наших тестах с двумя L4 в Dell T560 мы наблюдали это почти линейное масштабирование производительности как для Resnet50 и BERT K99 эталонов.Это масштабирование свидетельствует об эффективности L4 GPU и их способности работать в тандеме без значительных потерь из-за накладных расходов или неэффективности.

Dell PowerEdge T560 2x NVIDIA L4	Оценка
Сервер Resnet50	24,407.50
Resnet50 Оффлайн	25,463.20
BERT K99 Сервер	1,801.28
BERT K99 ️ В автономном режиме	1,904.10

Последовательное линейное масштабирование, которое мы наблюдали с двумя графическими процессорами NVIDIA L4, впечатляюще распространяется на конфигурации с четырьмя блоками L4. This scaling is particularly noteworthy as maintaining linear performance gains becomes increasingly challenging with each added GPU due to the complexities of parallel processing and resource management.

Dell PowerEdge T560 4x NVIDIA L4	Оценка
Сервер Resnet50	48,818.30
Resnet50 Оффлайн	51,381.70
BERT K99 Сервер	3,604.96
BERT K99 ️ В автономном режиме	3,821.46

Эти результаты предназначены только для иллюстративных целей, а не для соревнований или официальных результатов MLPerf.

В дополнение к проверке линейной масштабируемости графических процессоров NVIDIA L4, наши тесты в лаборатории проливают свет на практические последствия развертывания этих устройств в различных операционных сценариях.Например,, согласованность производительности между серверным и автономным режимами во всех конфигурациях с L4 графическими процессорами показывает их надежность и универсальность.

Этот аспект особенно актуален для предприятий и научно-исследовательских учреждений, где операционные контексты значительно различаются. our observations on the minimal impact of interconnect bottlenecks and the efficiency of GPU synchronization in multi-GPU setups provide valuable insights for those looking to scale their AI infrastructureЭти идеи выходят за рамки простых показателей, предлагая более глубокое понимание того, как такое оборудование может быть оптимально использовано в реальных сценариях,направление лучших архитектурных решений и инвестиционных стратегий в инфраструктуру ИИ и HPC.

NVIDIA L4 - производительность приложений

Мы сравнили производительность новой NVIDIA L4 с NVIDIA A2 и NVIDIA T4, которые были до нее.Мы развернули все три модели внутри сервера в нашей лаборатории, с Windows Server 2022 и новейшими драйверами NVIDIA, используя весь наш тест-пакет GPU.

Эти карты были протестированы на Dell Poweredge R760 с следующей конфигурацией:

2 x Intel Xeon Gold 6430 (32 ядра, 2.1 ГГц)
Windows Server 2022
Драйвер NVIDIA 538.15
ECC отключен на всех картах для 1x отбора проб

Поскольку мы начинаем тестирование производительности между этой группой из трех корпоративных графических процессоров, важно отметить уникальные различия в производительности между более ранними моделями A2 и T4.Когда был выпущен A2, он предлагал некоторые заметные улучшения, такие как более низкое потребление энергии и работа на меньшем слоте PCIe Gen4 x8, вместо более крупного слота PCIe Gen3 x16, требуемого старым T4.Сразу же это позволило ему встраиваться в другие системы., особенно с меньшим необходимым отпечатком.

Блендер OptiX 4.0

Blender OptiX - это приложение для 3D-моделирования с открытым исходным кодом.Этот ориентир был запущен с помощью утилиты Blender Benchmark CLI. Счёт - это образцы в минуту, и если выше, то лучше.

Блендер 4.0 (Больше - лучше)	NVIDIA L4	NVIDIA A2	Nvidia T4
ГПУ Блендер CLI Monster	2,207.765	458.692	850.076
GPU Blender CLI Junkshop	1,127.829	292.553	517.243
ГПУ Блендер CLI Classroom	1,111.753	262.387	478.786

Тест скорости Blackmagic RAW

Мы тестируем процессоры и графические процессоры с помощью RAW Speed Test от Blackmagic, который тестирует скорость воспроизведения видео.Они отображаются в виде отдельных результатов, но мы сосредоточены только на графических процессорах здесь, так что результаты процессора пропускаются.

Тест скорости Blackmagic RAW (Больше - лучше)	NVIDIA L4	NVIDIA A2	NVIDIA T4
8K CUDA	95 FPS	38 FPS	53 FPS

Графический процессор Cinebench 2024

Maxon's Cinebench 2024 - это эталонный показатель рендеринга CPU и GPU, который использует все ядра и потоки CPU.Более высокие баллы - лучше.

Киностудия 2024 (Больше - лучше)	NVIDIA L4	NVIDIA A2	NVIDIA T4
ГПУ	15,263	4,006	5,644

GPU PI

ГПУПИ 3.3.3 - это версия легкого инструмента сравнения, предназначенного для расчета π (pi) до миллиардов десятичных знаков с использованием аппаратного ускорения через графические процессоры и процессоры.Он использует вычислительную мощность OpenCL и CUDA, которая включает в себя как центральные, так и графические процессоры.Мы запустили CUDA только на всех трех графических процессорах и цифры здесь - время расчета без времени сокращения.

Время вычисления GPU PI в секундах (Ниже лучше)	NVIDIA L4	NVIDIA A2	NVIDIA T4
GPUPI v3.3 1B	3.732	19.799	7.504s
GPUPI v3.3 32B	244.380.	1,210.801	486.231

В то время как предыдущие результаты рассматривали только одну итерацию каждой карты, у нас также была возможность посмотреть на 5x развертывание NVIDIA L4 внутри Dell PowerEdge T560.

Время вычисления GPU PI в секундах (Ниже лучше)	Dell PowerEdge T560 (2x Xeon Gold 6448Y) с 5x NVIDIA L4
GPUPI v3.3 1B	0sec 850ms
GPUPI v3.3 32B	50 секунд 361 мс

Октанебенч

OctaneBench - это утилита для сравнения для OctaneRender, другого 3D-рендера с поддержкой RTX, аналогичного V-Ray.

Октановый показатель (более высокий - лучше)
Сцена	Ядро	NVIDIA L4	NVIDIA A2	NVIDIA T4
Внутренняя часть	Информационные каналы	15.59	4.49	6.39
	Прямое освещение	50.85	14.32	21.76
	Отслеживание маршрута	64.02	18.46	25.76
Идея.	Информационные каналы	9.30	2.77	3.93
	Прямое освещение	39.34	11.53	16.79
	Отслеживание маршрута	48.24	14.21	20.32
АТВ	Информационные каналы	24.38	6.83	9.50
	Прямое освещение	54.86	16.05	21.98
	Отслеживание маршрута	68.98	20.06	27.50
Коробка	Информационные каналы	12.89	3.88	5.42
	Прямое освещение	48.80	14.59	21.36
	Отслеживание маршрута	54.56	16.51	23.85
Общий балл		491.83	143.71	204.56

ГПУ Geekbench 6

Geekbench 6 - это кроссплатформенный бенчмарк, который измеряет общую производительность системы.Мы только посмотрели на результаты GPU.

Вы можете найти сравнения с любой системой в Geekbench.

Гекбенч 6.1.0 (Больше - лучше)	NVIDIA L4	NVIDIA A2	NVIDIA T4
Geekbench GPU OpenCL	156,224	35,835	83,046

Luxmark

LuxMark - это кроссплатформенный инструмент сравнения OpenCL от тех, кто поддерживает движок рендеринга 3D с открытым исходным кодом LuxRender.Для этого обзора, мы использовали новейшую версию, v4alpha0.

Luxmark v4.0alpha0 Графические процессоры OpenCL (Больше - лучше)	NVIDIA L4	NVIDIA A2	NVIDIA T4
Залская скамейка	14,328	3,759	5,893
Продовольственная скамейка	5,330	1,258	2,033

GROMACS CUDA

Мы также разработали GROMACS, программное обеспечение для молекулярной динамики, специально для CUDA.необходимо для ускорения вычислительных симуляций.

Процесс включал использование nvcc, компилятора CUDA от NVIDIA,вместе со многими итерациями соответствующих оптимальных флагов, чтобы убедиться, что двоичные файлы были правильно настроены на архитектуру сервераВключение поддержки CUDA в компиляцию GROMACS позволяет программному обеспечению напрямую взаимодействовать с аппаратным обеспечением GPU, что может значительно улучшить время вычислений для сложных симуляций.

Испытание: взаимодействие настраиваемых белков в громаках

Используя файл, предоставленный сообществом из нашего разнообразного Discord, который содержал параметры и структуры, созданные для конкретного исследования взаимодействия белков,Мы начали моделирование молекулярной динамики.Результаты были поразительными: система достигла скорости моделирования 170,268 наносекунд в день.

ГПУ	Система	ns/день	Время (ы) работы ядра
NVIDIA A4000	Белый ящик AMD Ryzen 5950x	84.415	163,763
RTX NVIDIA 4070	Белый ящик AMD Ryzen 7950x3d	131.85	209,692.3
5x NVIDIA L4	Dell T560 w/ 2x Intel Xeon Gold 6448Y	170.268	608,912.7

Больше, чем ИИ

NVIDIA L4

GPU NVIDIA L4

В то время как ажиотаж вокруг искусственного интеллекта достигает своего пика, легко зацикливаться только на производительности L4 с моделями искусственного интеллекта, но у него есть еще несколько трюков в рукаве,раскрывая мир возможностей для видеоприложенийL4 может принимать до 1040 одновременных видеопотоков AV1 на 720p30, что может изменить способ потоковой передачи контента пользователям, повысить креативность рассказа,и позволить захватывающие случаи использования для захватывающих опытов AR / VR.

NVIDIA L4 также блестит, когда дело доходит до оптимизации графической производительности, о чем свидетельствует его мастерство в рендеринге в реальном времени и отслеживании лучей.L4 способен обеспечить надежную, высокопроизводительное графическое ускорение вычислений для VDI, обслуживающее конечных пользователей, которые полагаются на высококачественное графическое рендеринг в режиме реального времени для своей работы.

Заключительные мысли

GPU NVIDIA L4 обеспечивает прочную основу для краевого ИИ и высокопроизводительных вычислений, предлагая непревзойденную эффективность и универсальность для широкого спектра приложений.Его способность обрабатывать интенсивные нагрузки на ИИ, задачи по ускорению или видеопроводов, вместе с его оптимизированной графической производительностью, делает его идеальным выбором для краевого вывода или ускорения виртуального рабочего стола.Уникальное сочетание высокой вычислительной мощности L4, расширенные возможности памяти и энергоэффективность позиционируют его как ключевого игрока в ускорении рабочей нагрузки, особенно в ИИ и графической промышленности.

NVIDIA L4 twist stack

Нельзя отрицать, что ИИ находится в центре нынешней IT-бури, и спрос на высококачественные графические процессоры H100/H200 остается высоким.Также существует значительный толчок к развертыванию более надежной ИТ-инфраструктуры на краю, где генерируются и анализируются данныеВ этих сценариях требуется более подходящий размер графического процессора, и NVIDIA L4 превосходит здесь.независимо от того, развертываются ли они как единое подразделение или совместно., как мы проверили в T560.

Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг, директор по глобальной стратегии
WhatsApp / WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
С

PREV: Samsung 990 EVO Plus SSD Обзор

NEXT: CoolIT Systems запускает новые CDU для решений охлаждения ИИ и HPC

Контактная информация

Beijing Qianxing Jietong Technology Co., Ltd.

Контактное лицо: Ms. Sandy Yang

Телефон: 13426366826

около

Сервер хранения шкафа: 12 сервер шкафа Lenovo ThinkSystem SR630 сервера заливов 1U Rackmount; Процессор Intel Xeon E-2378G сервера хранения шкафа ThinkSystem SR250 V2 4SFF; Сервер держателя шкафа Inspur NF5180M6 1U сервера хранения шкафа Intel C621A

Сервер сплавливания Huawei: Сервер 32 DDR4 DIMMs шкафа FusionServer 5288 V6 4U 44 жесткого диска 3,5 дюйма; Ультра сервер 1288H V5 хранения сети сервера 1U сплавливания Huawei высокой плотности; Хранение нового сервера шкафа Gen OceanStor 5310 Huawei гибридное внезапное

Оставить сообщение