Обзор кластера NVIDIA DGX Spark: распределенный вывод на Dell, GIGABYTE и HP

Все продукты

Сервер хранения шкафа
(165)

Сервер сплавливания Huawei
(31)

Сервер Dell Poweredge
(59)

Сервер H3C
(31)

Переключатели Datacom
(96)

Прибор WLAN
(21)

Умный беспроводной маршрутизатор
(10)

Жесткий диск HDD
(78)

Внутренний SSD жесткого диска
(16)

Карта Geforce графическая
(27)

Процессор C.P.U. INTEL
(20)

RAM памяти сервера
(6)

Приведенный сервер хранения
(6)

Модуль приемопередатчика SFP
(4)

Переключение каналов волокна
(42)

Сертификация

Китай Beijing Qianxing Jietong Technology Co., Ltd. Сертификаты

Просмотрения клиента

Торговый персонал CO. технологии Пекин Qianxing Jietong, Ltd очень профессионален и терпелив. Они могут обеспечить цитаты быстро. Качество и упаковка продуктов также очень хороши. Наше сотрудничество очень ровно.

—— LLC》 Festfing DV 《

Когда я искал C.P.U. intel и SSD Тошиба срочно, Sandy от CO. технологии Пекин Qianxing Jietong, Ltd дала мне много помощь и получила мне продукты мне быстро. Я действительно оцениваю ее.

—— Иены киски

Sandy CO. технологии Пекин Qianxing Jietong, Ltd очень осторожный продавец, который может напомнить меня об ошибок конфигурации во времени когда я покупаю сервер. Инженеры также очень профессиональны и могут быстро выполнить испытывая процесс.

—— Strelkin Mikhail Vladimirovich

Мы очень довольны нашим опытом работы с Beijing Qianxing Jietong. Качество продукции отличное, и доставка всегда вовремя. Их отдел продаж профессионален, терпелив и очень полезен во всех наших вопросах. Мы искренне ценим их поддержку и надеемся на долгосрочное партнерство. Настоятельно рекомендуется!

—— Ахмад Навид

Качество: Очень хороший опыт работы с моим поставщиком. МикроТик RB3011 уже использовался, но он был в очень хорошем состоянии и все работало идеально.и все мои проблемы были решены быстро- Очень надежный поставщик. - Очень рекомендую.

—— Джеран Колесио

Оставьте нам сообщение

Обзор кластера NVIDIA DGX Spark: распределенный вывод на Dell, GIGABYTE и HP

May 15, 2026

NVIDIA DGX Spark выделяется двумя отличительными чертами: 128 ГБ унифицированной памяти в настольном устройстве стоимостью 4000 долларов и встроенная сеть 200 ГБ для центров обработки данных. Высокоскоростная фабрика отличает его от обычных рабочих станций, позволяя создавать многоузловые кластеры, которые раньше были эксклюзивными для серверов, монтируемых в стойку. В этом обзоре сравниваются результаты распределенного вывода в вариантах Dell, GIGABYTE и HP Spark в двухузловых кластерах 200GbE для различных моделей и рабочих нагрузок. Он также анализирует конвейерный параллелизм (PP), альтернативный метод разделения, превосходящий стандартный тензорный параллелизм (TP) NVIDIA.

Сетевая ткань 200 ГБ

Каждый Spark оснащен двумя модулями QSFP56, соединенными со встроенным сетевым адаптером ConnectX-7 SmartNIC. Ограниченная пропускной способностью PCIe Gen5 x4, полезная скорость сети ограничена 200 Гбит/с, при этом одного порта достаточно для полной пропускной способности; второй порт обеспечивает гибкость топологии. Доступны три распространенные конфигурации: прямые каналы связи Spark-to-Spark 200Gb, кольцевая топология без коммутации через два порта 100Gb и гибридная кластеризация с высокоскоростным доступом к хранилищу NVMe-oF. NVIDIA продает одноюнитовые настольные компьютеры, проверенные двухузловые кластеры и недавно выпущенные четырехузловые установки. Конфигурация с двумя искрами является наиболее практичной для вывода в производственном стиле и является целью данного теста.

Обоснование кластеризации Spark

Основным преимуществом является расширение емкости модели: два связанных Sparks могут запускать модели со 120 битами параметров, которые превышают ограничения памяти для одного устройства. Что еще более важно, платформа служит доступным образовательным инструментом. NVIDIA разрабатывает Spark для новичков, желающих изучить рабочие процессы искусственного интеллекта, с официальными руководствами, охватывающими развертывание моделей, тонкую настройку и разработку PyTorch/JAX. Двухузловые кластеры дополнительно учат многоузловому параллелизму и анализу узких мест сети без дорогостоящего оборудования центра обработки данных. Примечательно, что Spark не оптимизирован для производственного вывода. Ограниченный пропускной способностью памяти и задержкой между узлами, его канал 200GbE работает медленнее, чем внутренние соединения PCIe. Более крупные кластеры страдают от серьезного снижения производительности из-за низкой пропускной способности токенов, что ограничивает их использование в образовательных целях, а не в коммерческих целях.

Тестирование производительности: PP против TP

Выбор стратегии параллелизма

NVIDIA по умолчанию использует TP, который разделяет каждый слой преобразователя на два графических процессора с частым обменом данными со всеми сокращениями. PP, напротив, делит модели по слоям, передавая активации между узлами только один раз. На каналах 200GbE PP сводит к минимуму межузловую связь. Для больших моделей и больших партий ПП значительно превосходит TP; TP превосходен только в сценариях чата с одним запросом и малой задержкой.

Тесты на GPT-OSS-120B подтверждают этот пробел. При размере пакета 128 PP достигает 554,69 ток/с (в 2,20 раза быстрее, чем TP) при сбалансированных рабочих нагрузках, 310,63 ток/с против 164,99 ток/с в задачах с большим объемом предварительного заполнения. TP лидирует только при размере пакета 1. Для небольших моделей, таких как Llama-3.1-8B, TP доминирует над большинством размеров пакетов из-за облегченных вычислений на уровне, при этом PP обгоняет TP только при высоком уровне параллелизма.

Результаты многомодельного сравнительного тестирования (PP=2)

Серия GPT-OSS

Для GPT-OSS-120B компания HP достигла максимальной пиковой пропускной способности при сбалансированных (504,88 ток/с) и тяжелых нагрузках с предварительным заполнением (441,63 ток/с); Компания GIGABYTE провела тесты с большим объемом декодирования (494,37 ток/с). Для GPT-OSS-20B Dell доминировала в сценариях со сбалансированным (976,77 ток/с) и интенсивным предзаполнением (852,39 ток/с), тогда как GIGABYTE лидировала в задачах декодирования (945,55 ток/с).

Лама 3.1 8B Варианты

С точностью BF16 компания Dell лидировала в сбалансированных (689,53 ток/с) и тяжелых декодировании (581,43 ток/с) рабочих нагрузках; GIGABYTE выиграла тесты с большим количеством предзаполнений (539,27 ток/с). Оптимизация FP4 резко увеличила пропускную способность: GIGABYTE выполняла сбалансированные (1458,86 ток/с) и сложные задачи с предварительным заполнением (954,23 ток/с). В рамках FP8 компания Dell сохранила небольшое преимущество в сбалансированном (1105,42 ток/с) и интенсивном декодировании (862,33 ток/с) сценариях.

Модели Мистраль и Квен

В Mistral Small 3.1 24B разрывы были минимальными: GIGABYTE достигла пика в 255,09 ток/с при сбалансированных нагрузках. Для Qwen3 Coder 30B (A3B Base) компания GIGABYTE выполняла сложные задачи предварительного заполнения (1862,40 ток/с); Dell преуспела в сценариях декодирования. При квантовании FB8 GIGABYTE превысила пропускную способность при предварительном заполнении (3088,62 ток/с), а Dell возглавила задачи декодирования (705,77 ток/с).

Сводная информация о пиковой мощности систем двойной искры

Модель	Сценарий (БС – 64)	Пиковая мощность Dell	Пиковая мощность GIGABYTE	Пиковая мощность HP
ГПТ-ОСС-120Б	Равный ISL/OSL	463,97 ток/с	497,26 ток/с	504,88 ток/с
ГПТ-ОСС-120Б	Предварительное заполнение тяжелое	419,56 ток/с	417,34 ток/с	441,63 ток/с
ГПТ-ОСС-120Б	Декодирование тяжелого	451,18 ток/с	494,37 ток/с	474,85 ток/с
ГПТ-ОСС-20Б	Равный ISL/OSL	976,77 ток/с	952,31 ток/с	915,72 ток/с
ГПТ-ОСС-20Б	Предварительное заполнение тяжелое	852,39 ток/с	802,37 ток/с	757,05 ток/с
ГПТ-ОСС-20Б	Декодирование тяжелого	938,65 ток/с	945,55 ток/с	865,78 ток/с
Лама-3.1-8Б-Инструктировать	Равный ISL/OSL	689,53 ток/с	687,48 ток/с	618,87 ток/с
Лама-3.1-8Б-Инструктировать	Предварительное заполнение тяжелое	515,45 ток/с	539,27 ток/с	463,39 ток/с
Лама-3.1-8Б-Инструктировать	Декодирование тяжелого	581,43 ток/с	576,91 ток/с	531,07 ток/с
Лама-3.1-8Б-ФП4	Равный ISL/OSL	1427,39 ток/с	1458,86 ток/с	1413,51 ток/с
Лама-3.1-8Б-ФП4	Предварительное заполнение тяжелое	884,22 ток/с	954,23 ток/с	843,57 ток/с
Лама-3.1-8Б-ФП4	Декодирование тяжелого	1008,98 ток/с	1007,23 ток/с	943,73 ток/с
Лама-3.1-8Б-ФП8	Равный ISL/OSL	1105,42 ток/с	1089,85 ток/с	1076,68 ток/с
Лама-3.1-8Б-ФП8	Предварительное заполнение тяжелое	759,50 ток/с	827,40 ток/с	725,51 ток/с
Лама-3.1-8Б-ФП8	Декодирование тяжелого	862,33 ток/с	855,81 ток/с	800,78 ток/с
Мистраль-Малый-3.1-24Б	Равный ISL/OSL	249,77 ток/с	255,09 ток/с	239,09 ток/с
Мистраль-Малый-3.1-24Б	Предварительное заполнение тяжелое	216,01 ток/с	214,38 ток/с	197,92 ток/с
Мистраль-Малый-3.1-24Б	Декодирование тяжелого	238,44 ток/с	237,97 ток/с	221,41 ток/с

Заключение

Устройства Dell, GIGABYTE и HP Spark демонстрируют незначительный разрыв в производительности с незначительными преимуществами для отдельных партий. При принятии решений о покупке следует отдавать предпочтение конструкции шасси, тепловыделению, гарантии и послепродажной поддержке, а не незначительным различиям в тестах. Стратегия параллелизма оказывает гораздо большее влияние, чем варианты OEM: PP превосходит TP для пакетного вывода, тогда как TP подходит для однопоточного взаимодействия с малой задержкой. Рекомендация NVIDIA по TP соответствует позиционированию Spark как интерактивного обучающего устройства, а не производственной инфраструктуры. Кластер Spark с двумя узлами служит доступной платформой обучения распределенному искусственному интеллекту. Будущие тесты будут охватывать более крупные кластеры и комплексное обучение на небольших моделях в ожидании развертывания лабораторного коммутатора 800 Гбит/с.

Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг/Директор по глобальной стратегии
WhatsApp/WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Веб-сайт: www.qianxingdata.com/www.storagesserver.com.
Бизнес-направление:
Распространение продуктов ИКТ/Системная интеграция и услуги/Инфраструктурные решения
Имея более чем 20-летний опыт распространения ИТ-технологий, мы сотрудничаем с ведущими мировыми брендами, предоставляя надежные продукты и профессиональные услуги.
«Использование технологий для построения интеллектуального мира»Ваш надежный поставщик услуг в области ИКТ!

PREV: Обзор ORICO X50: Thunderbolt 5 Speed в портативном SSD-корпусе

NEXT: Seagate IronWolf Pro 32TB Обзор: максимальная емкость для мульти-бэй NAS

Контактная информация

Beijing Qianxing Jietong Technology Co., Ltd.

Контактное лицо: Ms. Sandy Yang

Телефон: 13426366826

Обзор кластера NVIDIA DGX Spark: распределенный вывод на Dell, GIGABYTE и HP

Сервер хранения шкафа

Сервер сплавливания Huawei

Сервер Dell Poweredge

Сервер H3C

Переключатели Datacom

Прибор WLAN

Умный беспроводной маршрутизатор

Жесткий диск HDD

Внутренний SSD жесткого диска

Карта Geforce графическая

Процессор C.P.U. INTEL

RAM памяти сервера

Приведенный сервер хранения

Модуль приемопередатчика SFP

Переключение каналов волокна

Обзор кластера NVIDIA DGX Spark: распределенный вывод на Dell, GIGABYTE и HP

Сетевая ткань 200 ГБ

Обоснование кластеризации Spark

Тестирование производительности: PP против TP

Выбор стратегии параллелизма

Результаты многомодельного сравнительного тестирования (PP=2)

Серия GPT-OSS

Лама 3.1 8B Варианты

Модели Мистраль и Квен

Сводная информация о пиковой мощности систем двойной искры

Заключение

Сервер хранения шкафа

12 сервер шкафа Lenovo ThinkSystem SR630 сервера заливов 1U Rackmount

Процессор Intel Xeon E-2378G сервера хранения шкафа ThinkSystem SR250 V2 4SFF

Сервер держателя шкафа Inspur NF5180M6 1U сервера хранения шкафа Intel C621A

Сервер сплавливания Huawei

Сервер 32 DDR4 DIMMs шкафа FusionServer 5288 V6 4U 44 жесткого диска 3,5 дюйма

Ультра сервер 1288H V5 хранения сети сервера 1U сплавливания Huawei высокой плотности

Хранение нового сервера шкафа Gen OceanStor 5310 Huawei гибридное внезапное