AMD объявила результаты тестов MLPerf Inference v6.0, позиционируя GPU Instinct MI355X как высокомасштабируемую платформу для инференса, способную поддерживать развертывания на одном узле, нескольких узлах и гетерогенные развертывания. Помимо инкрементальных приростов производительности, представленные результаты включают новые рабочие нагрузки, демонстрируют пропускную способность на уровне кластера, превышающую 1 миллион токенов в секунду, и подтверждают стабильную воспроизводимость производительности в расширяющейся экосистеме партнеров.
Архитектура CDNA 4 нацелена на инференс с высокой емкостью
Instinct MI355X построен на архитектуре AMD CDNA 4, используя чиплетный дизайн TSMC с двойным процессом: вычислительные кристаллы (XCD) используют 3-нм техпроцесс, а кристаллы ввода-вывода — 6-нм технологию FinFET. Многочиплетный корпус интегрирует 185 миллиардов транзисторов и поддерживает форматы данных FP4 и FP6 — критически важные для эффективного инференса больших моделей. Каждый GPU оснащен до 288 ГБ памяти HBM3E (обеспечивающей пропускную способность памяти 8 ТБ/с), что позволяет поддерживать модели с количеством параметров до 520 миллиардов на одном устройстве. AMD подчеркивает, что это сочетание вычислительной плотности и емкости памяти устраняет необходимость в чрезмерном разделении моделей, что является ключевым преимуществом для крупномасштабных рабочих нагрузок инференса.
Платформа, доступная в конфигурациях UBB8, предлагает варианты с воздушным и прямым жидкостным охлаждением, соответствующие разнообразным требованиям к развертыванию в центрах обработки данных. Примечательно, что MI355X имеет TDP (Thermal Design Power) 1400 Вт при жидкостном охлаждении, обеспечивая более высокую производительность, чем его аналог с воздушным охлаждением, MI350X.
Пропускная способность на нескольких узлах превышает 1 миллион токенов в секунду
Выдающимся достижением в раунде MLPerf v6.0 является пропускная способность AMD на уровне кластера, превышающая 1 миллион токенов в секунду. Используя GPU Instinct MI355X, AMD достигла этой вехи с Llama 2 70B как в сценариях Server, так и Offline, а также с GPT-OSS-120B в режиме Offline.
График AMD MLPerf 1 миллион токенов в секунду
Эти результаты отражают растущий сдвиг в отрасли в сторону оценки производительности инференса на уровне кластера, а не на отдельном ускорителе. Общая пропускная способность и время отклика стали основными метриками для определения готовности к производству в крупномасштабных развертываниях ИИ.
AMD также продемонстрировала исключительную эффективность масштабирования. Для Llama 2 70B конфигурация из 11 узлов и 87 GPU достигла более 1 миллиона токенов в секунду в сценариях Offline, Server и Interactive, с эффективностью масштабирования от 93% до 98%. Для GPT-OSS-120B кластер из 12 узлов и 94 GPU обеспечил аналогичную пропускную способность с эффективностью масштабирования более 90%, доказывая, что производительность эффективно переносится по мере расширения развертываний за пределы одной системы.
Поколенческие улучшения и конкурентоспособная производительность на одном узле
AMD сообщила о значительных поколенческих улучшениях: Instinct MI355X обеспечивает в 3,1 раза лучшую производительность на Llama 2 70B Server по сравнению с предыдущим поколением Instinct MI325X, достигая 100 282 токенов в секунду. Это улучшение обусловлено как архитектурными усовершенствованиями CDNA 4, так и оптимизациями программного обеспечения ROCm. Показатели Offline улучшились в 4,4 раза, а показатели Server — в 4,8 раза по сравнению с предыдущими раундами MLPerf, в основном благодаря квантованию FP4 — ключевой функции MI355X, которая обеспечивает более высокую пропускную способность для рабочих нагрузок ИИ.
График результатов инференса AMD по сравнению с предыдущим поколением
В сравнении на одном узле с платформами NVIDIA MI355X продемонстрировал высокую конкурентоспособность. На Llama 2 70B он сравнялся с NVIDIA B200 по пропускной способности Offline, достиг почти паритета в производительности Server и превзошел его в режиме Interactive. По сравнению с NVIDIA B300, MI355X показал 92% производительности Offline, 93% производительности Server и превзошел его на 4% в режиме Interactive. Примечательно, что MI355X также предлагает превосходную экономическую эффективность, обеспечивая на 40% больше токенов на доллар по сравнению с NVIDIA B200.
Первое включение моделей расширяет охват
MLPerf Inference v6.0 представил несколько новых рабочих нагрузок, и AMD использовала этот раунд для демонстрации быстрого включения моделей. GPT-OSS-120B, модель «смесь экспертов», дебютировала в MLPerf с MI355X, показав конкурентоспособные результаты по сравнению с системами NVIDIA как в сценариях Offline, так и Server.
AMD также представила результаты для генерации текста в видео Wan-2.2, отметив свой выход в область мультимодального и генеративного видеоинференса. Хотя официальное представление было сосредоточено на задержке Single Stream, результаты были на уровне существующих платформ. Последующая настройка еще больше улучшила производительность, подчеркнув возможности оптимизации по мере созревания программного стека.
Эти дополнения подчеркивают приверженность AMD выходу за рамки традиционных бенчмарков LLM для поддержки возникающих рабочих нагрузок ИИ в различных сценариях использования.
Программное обеспечение ROCm обеспечивает масштабирование и гетерогенный инференс
AMD приписывает большую часть производительности и масштабируемости MI355X своему программному стеку ROCm. Ключевые усовершенствования включают оптимизированное выполнение FP4, улучшенную связь GPU-GPU для распределенного инференса и поддержку динамического распределения рабочих нагрузок в гетерогенных средах — критически важные для смешанных развертываний GPU.
График результатов инференса AMD MLPerf Instinct MI355X
В рамках эталонного гетерогенного представления, разработанного Dell и MangoBoost, использовались три модели GPU AMD Instinct: MI300X, MI325X и MI355X. Эта конфигурация достигла 141 521 токена в секунду на Llama 2 70B Server и 151 843 токенов в секунду на Llama 2 70B Offline. Примечательно, что платформа MI355X находилась в лаборатории Dell в США, в то время как системы MI300X и MI325X находились в Корее, демонстрируя способность координировать распределенные системы в географических регионах.
Рост экосистемы и воспроизводимость
Партнерская экосистема AMD значительно расширилась в этом раунде MLPerf: девять компаний представили результаты по нескольким поколениям GPU Instinct. Среди участвующих поставщиков: Cisco, Dell, Giga Computing, HPE, MangoBoost, MiTAC, Oracle, Supermicro и Red Hat, что отражает широкое внедрение решений AMD для инференса в отрасли.
Результаты партнеров тесно соответствовали внутренним результатам AMD, как правило, в пределах 4%, а в некоторых случаях — в пределах 1%. Эта согласованность подтверждает, что производительность MI355X воспроизводима на платформах OEM и облачных платформах, снижая риск развертывания и повышая уверенность в реальных результатах производительности.
Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг / Директор по глобальной стратегии
WhatsApp / WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Веб-сайт: www.qianxingdata.com/www.storagesserver.com
Бизнес-фокус:
Дистрибуция ИКТ-продукции / Системная интеграция и услуги / Инфраструктурные решения
Обладая более чем 20-летним опытом дистрибуции ИТ, мы сотрудничаем с ведущими мировыми брендами, чтобы поставлять надежные продукты и профессиональные услуги.
«Используя технологии для построения интеллектуального мира» Ваш надежный поставщик услуг ИКТ-продукции!
Сэнди Янг / Директор по глобальной стратегии
WhatsApp / WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Веб-сайт: www.qianxingdata.com/www.storagesserver.com
Бизнес-фокус:
Дистрибуция ИКТ-продукции / Системная интеграция и услуги / Инфраструктурные решения
Обладая более чем 20-летним опытом дистрибуции ИТ, мы сотрудничаем с ведущими мировыми брендами, чтобы поставлять надежные продукты и профессиональные услуги.
«Используя технологии для построения интеллектуального мира» Ваш надежный поставщик услуг ИКТ-продукции!



