logo
Главная страница Случаи

Обзор кластера NVIDIA DGX Spark: распределенный вывод на Dell, GIGABYTE и HP

Сертификация
Китай Beijing Qianxing Jietong Technology Co., Ltd. Сертификаты
Китай Beijing Qianxing Jietong Technology Co., Ltd. Сертификаты
Просмотрения клиента
Торговый персонал CO. технологии Пекин Qianxing Jietong, Ltd очень профессионален и терпелив. Они могут обеспечить цитаты быстро. Качество и упаковка продуктов также очень хороши. Наше сотрудничество очень ровно.

—— LLC》 Festfing DV 《

Когда я искал C.P.U. intel и SSD Тошиба срочно, Sandy от CO. технологии Пекин Qianxing Jietong, Ltd дала мне много помощь и получила мне продукты мне быстро. Я действительно оцениваю ее.

—— Иены киски

Sandy CO. технологии Пекин Qianxing Jietong, Ltd очень осторожный продавец, который может напомнить меня об ошибок конфигурации во времени когда я покупаю сервер. Инженеры также очень профессиональны и могут быстро выполнить испытывая процесс.

—— Strelkin Mikhail Vladimirovich

Мы очень довольны нашим опытом работы с Beijing Qianxing Jietong. Качество продукции отличное, и доставка всегда вовремя. Их отдел продаж профессионален, терпелив и очень полезен во всех наших вопросах. Мы искренне ценим их поддержку и надеемся на долгосрочное партнерство. Настоятельно рекомендуется!

—— Ахмад Навид

Качество: Очень хороший опыт работы с моим поставщиком. МикроТик RB3011 уже использовался, но он был в очень хорошем состоянии и все работало идеально.и все мои проблемы были решены быстро- Очень надежный поставщик. - Очень рекомендую.

—— Джеран Колесио

Оставьте нам сообщение

Обзор кластера NVIDIA DGX Spark: распределенный вывод на Dell, GIGABYTE и HP

May 15, 2026
NVIDIA DGX Spark выделяется двумя отличительными чертами: 128 ГБ унифицированной памяти в настольном устройстве стоимостью 4000 долларов и встроенная сеть 200 ГБ для центров обработки данных. Высокоскоростная фабрика отличает его от обычных рабочих станций, позволяя создавать многоузловые кластеры, которые раньше были эксклюзивными для серверов, монтируемых в стойку. В этом обзоре сравниваются результаты распределенного вывода в вариантах Dell, GIGABYTE и HP Spark в двухузловых кластерах 200GbE для различных моделей и рабочих нагрузок. Он также анализирует конвейерный параллелизм (PP), альтернативный метод разделения, превосходящий стандартный тензорный параллелизм (TP) NVIDIA.

последний случай компании о Обзор кластера NVIDIA DGX Spark: распределенный вывод на Dell, GIGABYTE и HP  0

Сетевая ткань 200 ГБ


Каждый Spark оснащен двумя модулями QSFP56, соединенными со встроенным сетевым адаптером ConnectX-7 SmartNIC. Ограниченная пропускной способностью PCIe Gen5 x4, полезная скорость сети ограничена 200 Гбит/с, при этом одного порта достаточно для полной пропускной способности; второй порт обеспечивает гибкость топологии. Доступны три распространенные конфигурации: прямые каналы связи Spark-to-Spark 200Gb, кольцевая топология без коммутации через два порта 100Gb и гибридная кластеризация с высокоскоростным доступом к хранилищу NVMe-oF. NVIDIA продает одноюнитовые настольные компьютеры, проверенные двухузловые кластеры и недавно выпущенные четырехузловые установки. Конфигурация с двумя искрами является наиболее практичной для вывода в производственном стиле и является целью данного теста.

последний случай компании о Обзор кластера NVIDIA DGX Spark: распределенный вывод на Dell, GIGABYTE и HP  1

Обоснование кластеризации Spark


Основным преимуществом является расширение емкости модели: два связанных Sparks могут запускать модели со 120 битами параметров, которые превышают ограничения памяти для одного устройства. Что еще более важно, платформа служит доступным образовательным инструментом. NVIDIA разрабатывает Spark для новичков, желающих изучить рабочие процессы искусственного интеллекта, с официальными руководствами, охватывающими развертывание моделей, тонкую настройку и разработку PyTorch/JAX. Двухузловые кластеры дополнительно учат многоузловому параллелизму и анализу узких мест сети без дорогостоящего оборудования центра обработки данных. Примечательно, что Spark не оптимизирован для производственного вывода. Ограниченный пропускной способностью памяти и задержкой между узлами, его канал 200GbE работает медленнее, чем внутренние соединения PCIe. Более крупные кластеры страдают от серьезного снижения производительности из-за низкой пропускной способности токенов, что ограничивает их использование в образовательных целях, а не в коммерческих целях.

Тестирование производительности: PP против TP


Выбор стратегии параллелизма


NVIDIA по умолчанию использует TP, который разделяет каждый слой преобразователя на два графических процессора с частым обменом данными со всеми сокращениями. PP, напротив, делит модели по слоям, передавая активации между узлами только один раз. На каналах 200GbE PP сводит к минимуму межузловую связь. Для больших моделей и больших партий ПП значительно превосходит TP; TP превосходен только в сценариях чата с одним запросом и малой задержкой.
Тесты на GPT-OSS-120B подтверждают этот пробел. При размере пакета 128 PP достигает 554,69 ток/с (в 2,20 раза быстрее, чем TP) при сбалансированных рабочих нагрузках, 310,63 ток/с против 164,99 ток/с в задачах с большим объемом предварительного заполнения. TP лидирует только при размере пакета 1. Для небольших моделей, таких как Llama-3.1-8B, TP доминирует над большинством размеров пакетов из-за облегченных вычислений на уровне, при этом PP обгоняет TP только при высоком уровне параллелизма.

Результаты многомодельного сравнительного тестирования (PP=2)


Серия GPT-OSS


Для GPT-OSS-120B компания HP достигла максимальной пиковой пропускной способности при сбалансированных (504,88 ток/с) и тяжелых нагрузках с предварительным заполнением (441,63 ток/с); Компания GIGABYTE провела тесты с большим объемом декодирования (494,37 ток/с). Для GPT-OSS-20B Dell доминировала в сценариях со сбалансированным (976,77 ток/с) и интенсивным предзаполнением (852,39 ток/с), тогда как GIGABYTE лидировала в задачах декодирования (945,55 ток/с).

Лама 3.1 8B Варианты


С точностью BF16 компания Dell лидировала в сбалансированных (689,53 ток/с) и тяжелых декодировании (581,43 ток/с) рабочих нагрузках; GIGABYTE выиграла тесты с большим количеством предзаполнений (539,27 ток/с). Оптимизация FP4 резко увеличила пропускную способность: GIGABYTE выполняла сбалансированные (1458,86 ток/с) и сложные задачи с предварительным заполнением (954,23 ток/с). В рамках FP8 компания Dell сохранила небольшое преимущество в сбалансированном (1105,42 ток/с) и интенсивном декодировании (862,33 ток/с) сценариях.

Модели Мистраль и Квен


В Mistral Small 3.1 24B разрывы были минимальными: GIGABYTE достигла пика в 255,09 ток/с при сбалансированных нагрузках. Для Qwen3 Coder 30B (A3B Base) компания GIGABYTE выполняла сложные задачи предварительного заполнения (1862,40 ток/с); Dell преуспела в сценариях декодирования. При квантовании FB8 GIGABYTE превысила пропускную способность при предварительном заполнении (3088,62 ток/с), а Dell возглавила задачи декодирования (705,77 ток/с).

Сводная информация о пиковой мощности систем двойной искры


Модель
Сценарий (БС – 64)
Пиковая мощность Dell
Пиковая мощность GIGABYTE
Пиковая мощность HP
ГПТ-ОСС-120Б
Равный ISL/OSL
463,97 ток/с
497,26 ток/с
504,88 ток/с
ГПТ-ОСС-120Б
Предварительное заполнение тяжелое
419,56 ток/с
417,34 ток/с
441,63 ток/с
ГПТ-ОСС-120Б
Декодирование тяжелого
451,18 ток/с
494,37 ток/с
474,85 ток/с
ГПТ-ОСС-20Б
Равный ISL/OSL
976,77 ток/с
952,31 ток/с
915,72 ток/с
ГПТ-ОСС-20Б
Предварительное заполнение тяжелое
852,39 ток/с
802,37 ток/с
757,05 ток/с
ГПТ-ОСС-20Б
Декодирование тяжелого
938,65 ток/с
945,55 ток/с
865,78 ток/с
Лама-3.1-8Б-Инструктировать
Равный ISL/OSL
689,53 ток/с
687,48 ток/с
618,87 ток/с
Лама-3.1-8Б-Инструктировать
Предварительное заполнение тяжелое
515,45 ток/с
539,27 ток/с
463,39 ток/с
Лама-3.1-8Б-Инструктировать
Декодирование тяжелого
581,43 ток/с
576,91 ток/с
531,07 ток/с
Лама-3.1-8Б-ФП4
Равный ISL/OSL
1427,39 ток/с
1458,86 ток/с
1413,51 ток/с
Лама-3.1-8Б-ФП4
Предварительное заполнение тяжелое
884,22 ток/с
954,23 ток/с
843,57 ток/с
Лама-3.1-8Б-ФП4
Декодирование тяжелого
1008,98 ток/с
1007,23 ток/с
943,73 ток/с
Лама-3.1-8Б-ФП8
Равный ISL/OSL
1105,42 ток/с
1089,85 ток/с
1076,68 ток/с
Лама-3.1-8Б-ФП8
Предварительное заполнение тяжелое
759,50 ток/с
827,40 ток/с
725,51 ток/с
Лама-3.1-8Б-ФП8
Декодирование тяжелого
862,33 ток/с
855,81 ток/с
800,78 ток/с
Мистраль-Малый-3.1-24Б
Равный ISL/OSL
249,77 ток/с
255,09 ток/с
239,09 ток/с
Мистраль-Малый-3.1-24Б
Предварительное заполнение тяжелое
216,01 ток/с
214,38 ток/с
197,92 ток/с
Мистраль-Малый-3.1-24Б
Декодирование тяжелого
238,44 ток/с
237,97 ток/с
221,41 ток/с


Заключение


Устройства Dell, GIGABYTE и HP Spark демонстрируют незначительный разрыв в производительности с незначительными преимуществами для отдельных партий. При принятии решений о покупке следует отдавать предпочтение конструкции шасси, тепловыделению, гарантии и послепродажной поддержке, а не незначительным различиям в тестах. Стратегия параллелизма оказывает гораздо большее влияние, чем варианты OEM: PP превосходит TP для пакетного вывода, тогда как TP подходит для однопоточного взаимодействия с малой задержкой. Рекомендация NVIDIA по TP соответствует позиционированию Spark как интерактивного обучающего устройства, а не производственной инфраструктуры. Кластер Spark с двумя узлами служит доступной платформой обучения распределенному искусственному интеллекту. Будущие тесты будут охватывать более крупные кластеры и комплексное обучение на небольших моделях в ожидании развертывания лабораторного коммутатора 800 Гбит/с.

Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг/Директор по глобальной стратегии
WhatsApp/WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Веб-сайт: www.qianxingdata.com/www.storagesserver.com.
Бизнес-направление:
Распространение продуктов ИКТ/Системная интеграция и услуги/Инфраструктурные решения
Имея более чем 20-летний опыт распространения ИТ-технологий, мы сотрудничаем с ведущими мировыми брендами, предоставляя надежные продукты и профессиональные услуги.
«Использование технологий для построения интеллектуального мира»Ваш надежный поставщик услуг в области ИКТ!
Контактная информация
Beijing Qianxing Jietong Technology Co., Ltd.

Контактное лицо: Ms. Sandy Yang

Телефон: 13426366826

Оставьте вашу заявку (0 / 3000)