AMD Instinct MI355X достигает прироста производительности в MLPerf Inference v6.0 с более чем 1 миллионом токенов в секунду и поддерживает масштабируемый ROC

Все продукты

Сервер хранения шкафа
(179)

Сервер сплавливания Huawei
(31)

Сервер Dell Poweredge
(59)

Сервер H3C
(31)

Переключатели Datacom
(96)

Прибор WLAN
(21)

Умный беспроводной маршрутизатор
(17)

Жесткий диск HDD
(78)

Внутренний SSD жесткого диска
(16)

Карта Geforce графическая
(27)

Процессор C.P.U. INTEL
(20)

RAM памяти сервера
(6)

Приведенный сервер хранения
(6)

Модуль приемопередатчика SFP
(4)

Переключение каналов волокна
(125)

Сертификация

Китай Beijing Qianxing Jietong Technology Co., Ltd. Сертификаты

Просмотрения клиента

Торговый персонал CO. технологии Пекин Qianxing Jietong, Ltd очень профессионален и терпелив. Они могут обеспечить цитаты быстро. Качество и упаковка продуктов также очень хороши. Наше сотрудничество очень ровно.

—— LLC》 Festfing DV 《

Когда я искал C.P.U. intel и SSD Тошиба срочно, Sandy от CO. технологии Пекин Qianxing Jietong, Ltd дала мне много помощь и получила мне продукты мне быстро. Я действительно оцениваю ее.

—— Иены киски

Sandy CO. технологии Пекин Qianxing Jietong, Ltd очень осторожный продавец, который может напомнить меня об ошибок конфигурации во времени когда я покупаю сервер. Инженеры также очень профессиональны и могут быстро выполнить испытывая процесс.

—— Strelkin Mikhail Vladimirovich

Мы очень довольны нашим опытом работы с Beijing Qianxing Jietong. Качество продукции отличное, и доставка всегда вовремя. Их отдел продаж профессионален, терпелив и очень полезен во всех наших вопросах. Мы искренне ценим их поддержку и надеемся на долгосрочное партнерство. Настоятельно рекомендуется!

—— Ахмад Навид

Качество: Очень хороший опыт работы с моим поставщиком. МикроТик RB3011 уже использовался, но он был в очень хорошем состоянии и все работало идеально.и все мои проблемы были решены быстро- Очень надежный поставщик. - Очень рекомендую.

—— Джеран Колесио

Оставьте нам сообщение

AMD Instinct MI355X достигает прироста производительности в MLPerf Inference v6.0 с более чем 1 миллионом токенов в секунду и поддерживает масштабируемый ROC

April 15, 2026

AMD объявила результаты тестов MLPerf Inference v6.0, позиционируя GPU Instinct MI355X как высокомасштабируемую платформу для инференса, способную поддерживать развертывания на одном узле, нескольких узлах и гетерогенные развертывания. Помимо инкрементальных приростов производительности, представленные результаты включают новые рабочие нагрузки, демонстрируют пропускную способность на уровне кластера, превышающую 1 миллион токенов в секунду, и подтверждают стабильную воспроизводимость производительности в расширяющейся экосистеме партнеров.

Архитектура CDNA 4 нацелена на инференс с высокой емкостью

Instinct MI355X построен на архитектуре AMD CDNA 4, используя чиплетный дизайн TSMC с двойным процессом: вычислительные кристаллы (XCD) используют 3-нм техпроцесс, а кристаллы ввода-вывода — 6-нм технологию FinFET. Многочиплетный корпус интегрирует 185 миллиардов транзисторов и поддерживает форматы данных FP4 и FP6 — критически важные для эффективного инференса больших моделей. Каждый GPU оснащен до 288 ГБ памяти HBM3E (обеспечивающей пропускную способность памяти 8 ТБ/с), что позволяет поддерживать модели с количеством параметров до 520 миллиардов на одном устройстве. AMD подчеркивает, что это сочетание вычислительной плотности и емкости памяти устраняет необходимость в чрезмерном разделении моделей, что является ключевым преимуществом для крупномасштабных рабочих нагрузок инференса.

Платформа, доступная в конфигурациях UBB8, предлагает варианты с воздушным и прямым жидкостным охлаждением, соответствующие разнообразным требованиям к развертыванию в центрах обработки данных. Примечательно, что MI355X имеет TDP (Thermal Design Power) 1400 Вт при жидкостном охлаждении, обеспечивая более высокую производительность, чем его аналог с воздушным охлаждением, MI350X.

Пропускная способность на нескольких узлах превышает 1 миллион токенов в секунду

Выдающимся достижением в раунде MLPerf v6.0 является пропускная способность AMD на уровне кластера, превышающая 1 миллион токенов в секунду. Используя GPU Instinct MI355X, AMD достигла этой вехи с Llama 2 70B как в сценариях Server, так и Offline, а также с GPT-OSS-120B в режиме Offline.

График AMD MLPerf 1 миллион токенов в секунду

Эти результаты отражают растущий сдвиг в отрасли в сторону оценки производительности инференса на уровне кластера, а не на отдельном ускорителе. Общая пропускная способность и время отклика стали основными метриками для определения готовности к производству в крупномасштабных развертываниях ИИ.

AMD также продемонстрировала исключительную эффективность масштабирования. Для Llama 2 70B конфигурация из 11 узлов и 87 GPU достигла более 1 миллиона токенов в секунду в сценариях Offline, Server и Interactive, с эффективностью масштабирования от 93% до 98%. Для GPT-OSS-120B кластер из 12 узлов и 94 GPU обеспечил аналогичную пропускную способность с эффективностью масштабирования более 90%, доказывая, что производительность эффективно переносится по мере расширения развертываний за пределы одной системы.

Поколенческие улучшения и конкурентоспособная производительность на одном узле

AMD сообщила о значительных поколенческих улучшениях: Instinct MI355X обеспечивает в 3,1 раза лучшую производительность на Llama 2 70B Server по сравнению с предыдущим поколением Instinct MI325X, достигая 100 282 токенов в секунду. Это улучшение обусловлено как архитектурными усовершенствованиями CDNA 4, так и оптимизациями программного обеспечения ROCm. Показатели Offline улучшились в 4,4 раза, а показатели Server — в 4,8 раза по сравнению с предыдущими раундами MLPerf, в основном благодаря квантованию FP4 — ключевой функции MI355X, которая обеспечивает более высокую пропускную способность для рабочих нагрузок ИИ.

График результатов инференса AMD по сравнению с предыдущим поколением

В сравнении на одном узле с платформами NVIDIA MI355X продемонстрировал высокую конкурентоспособность. На Llama 2 70B он сравнялся с NVIDIA B200 по пропускной способности Offline, достиг почти паритета в производительности Server и превзошел его в режиме Interactive. По сравнению с NVIDIA B300, MI355X показал 92% производительности Offline, 93% производительности Server и превзошел его на 4% в режиме Interactive. Примечательно, что MI355X также предлагает превосходную экономическую эффективность, обеспечивая на 40% больше токенов на доллар по сравнению с NVIDIA B200.

Первое включение моделей расширяет охват

MLPerf Inference v6.0 представил несколько новых рабочих нагрузок, и AMD использовала этот раунд для демонстрации быстрого включения моделей. GPT-OSS-120B, модель «смесь экспертов», дебютировала в MLPerf с MI355X, показав конкурентоспособные результаты по сравнению с системами NVIDIA как в сценариях Offline, так и Server.

AMD также представила результаты для генерации текста в видео Wan-2.2, отметив свой выход в область мультимодального и генеративного видеоинференса. Хотя официальное представление было сосредоточено на задержке Single Stream, результаты были на уровне существующих платформ. Последующая настройка еще больше улучшила производительность, подчеркнув возможности оптимизации по мере созревания программного стека.

Эти дополнения подчеркивают приверженность AMD выходу за рамки традиционных бенчмарков LLM для поддержки возникающих рабочих нагрузок ИИ в различных сценариях использования.

Программное обеспечение ROCm обеспечивает масштабирование и гетерогенный инференс

AMD приписывает большую часть производительности и масштабируемости MI355X своему программному стеку ROCm. Ключевые усовершенствования включают оптимизированное выполнение FP4, улучшенную связь GPU-GPU для распределенного инференса и поддержку динамического распределения рабочих нагрузок в гетерогенных средах — критически важные для смешанных развертываний GPU.

График результатов инференса AMD MLPerf Instinct MI355X

В рамках эталонного гетерогенного представления, разработанного Dell и MangoBoost, использовались три модели GPU AMD Instinct: MI300X, MI325X и MI355X. Эта конфигурация достигла 141 521 токена в секунду на Llama 2 70B Server и 151 843 токенов в секунду на Llama 2 70B Offline. Примечательно, что платформа MI355X находилась в лаборатории Dell в США, в то время как системы MI300X и MI325X находились в Корее, демонстрируя способность координировать распределенные системы в географических регионах.

Рост экосистемы и воспроизводимость

Партнерская экосистема AMD значительно расширилась в этом раунде MLPerf: девять компаний представили результаты по нескольким поколениям GPU Instinct. Среди участвующих поставщиков: Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro и Red Hat, что отражает широкое внедрение решений AMD для инференса в отрасли.

Результаты партнеров тесно соответствовали внутренним результатам AMD, как правило, в пределах 4%, а в некоторых случаях — в пределах 1%. Эта согласованность подтверждает, что производительность MI355X воспроизводима на платформах OEM и облачных платформах, снижая риск развертывания и повышая уверенность в реальных результатах производительности.

Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг / Директор по глобальной стратегии
WhatsApp / WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Веб-сайт: www.qianxingdata.com/www.storagesserver.com
Бизнес-фокус:
Дистрибуция ИКТ-продукции / Системная интеграция и услуги / Инфраструктурные решения
Обладая более чем 20-летним опытом дистрибуции ИТ, мы сотрудничаем с ведущими мировыми брендами, чтобы поставлять надежные продукты и профессиональные услуги.
«Используя технологии для построения интеллектуального мира» Ваш надежный поставщик услуг ИКТ-продукции!

PREV: VDURA представляет RDMA и контекстный уровень для платформ данных ИИ на GTC 2026

NEXT: Supermicro представила три новые системы Edge AI на базе AMD EPYC 4005

Контактная информация

Beijing Qianxing Jietong Technology Co., Ltd.

Контактное лицо: Ms. Sandy Yang

Телефон: 13426366826

AMD Instinct MI355X достигает прироста производительности в MLPerf Inference v6.0 с более чем 1 миллионом токенов в секунду и поддерживает масштабируемый ROC

Сервер хранения шкафа

Сервер сплавливания Huawei

Сервер Dell Poweredge

Сервер H3C

Переключатели Datacom

Прибор WLAN

Умный беспроводной маршрутизатор

Жесткий диск HDD

Внутренний SSD жесткого диска

Карта Geforce графическая

Процессор C.P.U. INTEL

RAM памяти сервера

Приведенный сервер хранения

Модуль приемопередатчика SFP

Переключение каналов волокна

AMD Instinct MI355X достигает прироста производительности в MLPerf Inference v6.0 с более чем 1 миллионом токенов в секунду и поддерживает масштабируемый ROC

Архитектура CDNA 4 нацелена на инференс с высокой емкостью

Пропускная способность на нескольких узлах превышает 1 миллион токенов в секунду

Поколенческие улучшения и конкурентоспособная производительность на одном узле

Первое включение моделей расширяет охват

Программное обеспечение ROCm обеспечивает масштабирование и гетерогенный инференс

Рост экосистемы и воспроизводимость

Сервер хранения шкафа

12 сервер шкафа Lenovo ThinkSystem SR630 сервера заливов 1U Rackmount

Процессор Intel Xeon E-2378G сервера хранения шкафа ThinkSystem SR250 V2 4SFF

Сервер держателя шкафа Inspur NF5180M6 1U сервера хранения шкафа Intel C621A

Сервер сплавливания Huawei

Сервер 32 DDR4 DIMMs шкафа FusionServer 5288 V6 4U 44 жесткого диска 3,5 дюйма

Ультра сервер 1288H V5 хранения сети сервера 1U сплавливания Huawei высокой плотности

Хранение нового сервера шкафа Gen OceanStor 5310 Huawei гибридное внезапное