NVIDIA DGX Spark выделяется двумя отличительными чертами: 128 ГБ унифицированной памяти в настольном устройстве стоимостью 4000 долларов и встроенная сеть 200 ГБ для центров обработки данных. Высокоскоростная фабрика отличает его от обычных рабочих станций, позволяя создавать многоузловые кластеры, которые раньше были эксклюзивными для серверов, монтируемых в стойку. В этом обзоре сравниваются результаты распределенного вывода в вариантах Dell, GIGABYTE и HP Spark в двухузловых кластерах 200GbE для различных моделей и рабочих нагрузок. Он также анализирует конвейерный параллелизм (PP), альтернативный метод разделения, превосходящий стандартный тензорный параллелизм (TP) NVIDIA.
Сетевая ткань 200 ГБ
Каждый Spark оснащен двумя модулями QSFP56, соединенными со встроенным сетевым адаптером ConnectX-7 SmartNIC. Ограниченная пропускной способностью PCIe Gen5 x4, полезная скорость сети ограничена 200 Гбит/с, при этом одного порта достаточно для полной пропускной способности; второй порт обеспечивает гибкость топологии. Доступны три распространенные конфигурации: прямые каналы связи Spark-to-Spark 200Gb, кольцевая топология без коммутации через два порта 100Gb и гибридная кластеризация с высокоскоростным доступом к хранилищу NVMe-oF. NVIDIA продает одноюнитовые настольные компьютеры, проверенные двухузловые кластеры и недавно выпущенные четырехузловые установки. Конфигурация с двумя искрами является наиболее практичной для вывода в производственном стиле и является целью данного теста.
Обоснование кластеризации Spark
Основным преимуществом является расширение емкости модели: два связанных Sparks могут запускать модели со 120 битами параметров, которые превышают ограничения памяти для одного устройства. Что еще более важно, платформа служит доступным образовательным инструментом. NVIDIA разрабатывает Spark для новичков, желающих изучить рабочие процессы искусственного интеллекта, с официальными руководствами, охватывающими развертывание моделей, тонкую настройку и разработку PyTorch/JAX. Двухузловые кластеры дополнительно учат многоузловому параллелизму и анализу узких мест сети без дорогостоящего оборудования центра обработки данных. Примечательно, что Spark не оптимизирован для производственного вывода. Ограниченный пропускной способностью памяти и задержкой между узлами, его канал 200GbE работает медленнее, чем внутренние соединения PCIe. Более крупные кластеры страдают от серьезного снижения производительности из-за низкой пропускной способности токенов, что ограничивает их использование в образовательных целях, а не в коммерческих целях.
Тестирование производительности: PP против TP
Выбор стратегии параллелизма
NVIDIA по умолчанию использует TP, который разделяет каждый слой преобразователя на два графических процессора с частым обменом данными со всеми сокращениями. PP, напротив, делит модели по слоям, передавая активации между узлами только один раз. На каналах 200GbE PP сводит к минимуму межузловую связь. Для больших моделей и больших партий ПП значительно превосходит TP; TP превосходен только в сценариях чата с одним запросом и малой задержкой.
Тесты на GPT-OSS-120B подтверждают этот пробел. При размере пакета 128 PP достигает 554,69 ток/с (в 2,20 раза быстрее, чем TP) при сбалансированных рабочих нагрузках, 310,63 ток/с против 164,99 ток/с в задачах с большим объемом предварительного заполнения. TP лидирует только при размере пакета 1. Для небольших моделей, таких как Llama-3.1-8B, TP доминирует над большинством размеров пакетов из-за облегченных вычислений на уровне, при этом PP обгоняет TP только при высоком уровне параллелизма.
Результаты многомодельного сравнительного тестирования (PP=2)
Серия GPT-OSS
Для GPT-OSS-120B компания HP достигла максимальной пиковой пропускной способности при сбалансированных (504,88 ток/с) и тяжелых нагрузках с предварительным заполнением (441,63 ток/с); Компания GIGABYTE провела тесты с большим объемом декодирования (494,37 ток/с). Для GPT-OSS-20B Dell доминировала в сценариях со сбалансированным (976,77 ток/с) и интенсивным предзаполнением (852,39 ток/с), тогда как GIGABYTE лидировала в задачах декодирования (945,55 ток/с).
Лама 3.1 8B Варианты
С точностью BF16 компания Dell лидировала в сбалансированных (689,53 ток/с) и тяжелых декодировании (581,43 ток/с) рабочих нагрузках; GIGABYTE выиграла тесты с большим количеством предзаполнений (539,27 ток/с). Оптимизация FP4 резко увеличила пропускную способность: GIGABYTE выполняла сбалансированные (1458,86 ток/с) и сложные задачи с предварительным заполнением (954,23 ток/с). В рамках FP8 компания Dell сохранила небольшое преимущество в сбалансированном (1105,42 ток/с) и интенсивном декодировании (862,33 ток/с) сценариях.
Модели Мистраль и Квен
В Mistral Small 3.1 24B разрывы были минимальными: GIGABYTE достигла пика в 255,09 ток/с при сбалансированных нагрузках. Для Qwen3 Coder 30B (A3B Base) компания GIGABYTE выполняла сложные задачи предварительного заполнения (1862,40 ток/с); Dell преуспела в сценариях декодирования. При квантовании FB8 GIGABYTE превысила пропускную способность при предварительном заполнении (3088,62 ток/с), а Dell возглавила задачи декодирования (705,77 ток/с).
Сводная информация о пиковой мощности систем двойной искры
|
Модель
|
Сценарий (БС – 64)
|
Пиковая мощность Dell
|
Пиковая мощность GIGABYTE
|
Пиковая мощность HP
|
|---|---|---|---|---|
|
ГПТ-ОСС-120Б
|
Равный ISL/OSL
|
463,97 ток/с
|
497,26 ток/с
|
504,88 ток/с
|
|
ГПТ-ОСС-120Б
|
Предварительное заполнение тяжелое
|
419,56 ток/с
|
417,34 ток/с
|
441,63 ток/с
|
|
ГПТ-ОСС-120Б
|
Декодирование тяжелого
|
451,18 ток/с
|
494,37 ток/с
|
474,85 ток/с
|
|
ГПТ-ОСС-20Б
|
Равный ISL/OSL
|
976,77 ток/с
|
952,31 ток/с
|
915,72 ток/с
|
|
ГПТ-ОСС-20Б
|
Предварительное заполнение тяжелое
|
852,39 ток/с
|
802,37 ток/с
|
757,05 ток/с
|
|
ГПТ-ОСС-20Б
|
Декодирование тяжелого
|
938,65 ток/с
|
945,55 ток/с
|
865,78 ток/с
|
|
Лама-3.1-8Б-Инструктировать
|
Равный ISL/OSL
|
689,53 ток/с
|
687,48 ток/с
|
618,87 ток/с
|
|
Лама-3.1-8Б-Инструктировать
|
Предварительное заполнение тяжелое
|
515,45 ток/с
|
539,27 ток/с
|
463,39 ток/с
|
|
Лама-3.1-8Б-Инструктировать
|
Декодирование тяжелого
|
581,43 ток/с
|
576,91 ток/с
|
531,07 ток/с
|
|
Лама-3.1-8Б-ФП4
|
Равный ISL/OSL
|
1427,39 ток/с
|
1458,86 ток/с
|
1413,51 ток/с
|
|
Лама-3.1-8Б-ФП4
|
Предварительное заполнение тяжелое
|
884,22 ток/с
|
954,23 ток/с
|
843,57 ток/с
|
|
Лама-3.1-8Б-ФП4
|
Декодирование тяжелого
|
1008,98 ток/с
|
1007,23 ток/с
|
943,73 ток/с
|
|
Лама-3.1-8Б-ФП8
|
Равный ISL/OSL
|
1105,42 ток/с
|
1089,85 ток/с
|
1076,68 ток/с
|
|
Лама-3.1-8Б-ФП8
|
Предварительное заполнение тяжелое
|
759,50 ток/с
|
827,40 ток/с
|
725,51 ток/с
|
|
Лама-3.1-8Б-ФП8
|
Декодирование тяжелого
|
862,33 ток/с
|
855,81 ток/с
|
800,78 ток/с
|
|
Мистраль-Малый-3.1-24Б
|
Равный ISL/OSL
|
249,77 ток/с
|
255,09 ток/с
|
239,09 ток/с
|
|
Мистраль-Малый-3.1-24Б
|
Предварительное заполнение тяжелое
|
216,01 ток/с
|
214,38 ток/с
|
197,92 ток/с
|
|
Мистраль-Малый-3.1-24Б
|
Декодирование тяжелого
|
238,44 ток/с
|
237,97 ток/с
|
221,41 ток/с
|
Заключение
Устройства Dell, GIGABYTE и HP Spark демонстрируют незначительный разрыв в производительности с незначительными преимуществами для отдельных партий. При принятии решений о покупке следует отдавать предпочтение конструкции шасси, тепловыделению, гарантии и послепродажной поддержке, а не незначительным различиям в тестах. Стратегия параллелизма оказывает гораздо большее влияние, чем варианты OEM: PP превосходит TP для пакетного вывода, тогда как TP подходит для однопоточного взаимодействия с малой задержкой. Рекомендация NVIDIA по TP соответствует позиционированию Spark как интерактивного обучающего устройства, а не производственной инфраструктуры. Кластер Spark с двумя узлами служит доступной платформой обучения распределенному искусственному интеллекту. Будущие тесты будут охватывать более крупные кластеры и комплексное обучение на небольших моделях в ожидании развертывания лабораторного коммутатора 800 Гбит/с.
Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг/Директор по глобальной стратегии
WhatsApp/WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Веб-сайт: www.qianxingdata.com/www.storagesserver.com.
Бизнес-направление:
Распространение продуктов ИКТ/Системная интеграция и услуги/Инфраструктурные решения
Имея более чем 20-летний опыт распространения ИТ-технологий, мы сотрудничаем с ведущими мировыми брендами, предоставляя надежные продукты и профессиональные услуги.
«Использование технологий для построения интеллектуального мира»Ваш надежный поставщик услуг в области ИКТ!
Сэнди Янг/Директор по глобальной стратегии
WhatsApp/WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Веб-сайт: www.qianxingdata.com/www.storagesserver.com.
Бизнес-направление:
Распространение продуктов ИКТ/Системная интеграция и услуги/Инфраструктурные решения
Имея более чем 20-летний опыт распространения ИТ-технологий, мы сотрудничаем с ведущими мировыми брендами, предоставляя надежные продукты и профессиональные услуги.
«Использование технологий для построения интеллектуального мира»Ваш надежный поставщик услуг в области ИКТ!



