Полные спецификации:
| Спецификация | Детали |
|---|---|
| Процессор | До двух процессоров Intel® Xeon® Scalable 5-го поколения (64 ядра на ЦП) До двух процессоров Intel® Xeon® Scalable 4-го поколения (56 ядер на ЦП) |
| Варианты GPU | XE9680: – NVIDIA HGX H200 (141 ГБ) SXM5 700 Вт – NVIDIA HGX H100 (80 ГБ) SXM5 700 Вт – AMD Instinct MI300X (192 ГБ) OAM 750 Вт – Intel Gaudi3 (128 ГБ) OAM 900 Вт |
| Память | 32 слота DIMM 5600 МТ/с (5-е поколение) 4800 МТ/с (4-е поколение) |
| Хранение данных | Передние отсеки для накопителей: 8x 2,5 дюйма NVMe/SAS/SATA (макс. 122,88 ТБ) 16x E3.S NVMe (макс. 122,88 ТБ) |
| Контроллеры хранения данных | Внутренние контроллеры: PERC H965i (не поддерживается с Intel Gaudi3)Внутренний загрузочный диск: Оптимизированная под загрузку подсистема хранения данных (NVMe BOSS-N1): HWRAID 1, 2 x M.2 SSD |
| Слоты PCIE | Слоты PCIeДо 10 слотов PCIe Gen5 x16 (8 слотов с Intel Gaudi3) |
| Сеть | 1x OCP 3.0 (опционально) 2x 1GbE LOM |
| Блоки питания | 3200 Вт Titanium (277 В переменного тока) 2800 Вт Titanium (200-240 В переменного тока) |
| Размеры | Высота: 10,36 дюйма (263,20 мм) Ширина: 18,97 дюйма (482,00 мм) Глубина: 39,71 дюйма (1008,77 мм) с рамкой |
| Вес | До 251,44 фунтов (114,05 кг) |
| Форм-фактор | Сервер 6U |
| Управление | Встроенное / На сервере: iDRAC9 iDRAC Direct iDRAC RESTful API с RedfishiDRAC Service ModuleКонсоли: Плагин CloudIQ для PowerEdge OpenManage Enterprise Плагин OpenManage Power Manager Плагин OpenManage Service Плагин OpenManage Update Manager Инструменты: Dell System Update Dell Repository Manager Enterprise Catalogs iDRAC RESTful API с Redfish IPMI RACADM CLIOpenManageИнтеграции: BMC Truesight OpenManage Integration with ServiceNow |
| Безопасность | Криптографически подписанная прошивка Шифрование данных в состоянии покоя (SED с локальным или внешним управлением ключами) Безопасная загрузка Проверка защищенных компонентов (проверка целостности оборудования) Безопасное стирание Кремниевый корень доверия Блокировка системы (требуется iDRAC9 Enterprise или Datacenter) |
| Охлаждение | Воздушное охлаждение |
Конструкция и дизайн Dell PowerEdge XE9680
PowerEdge XE9680 — это внушительное устройство, высотой 10,36 дюйма (263,20 мм), шириной 18,97 дюйма (482,00 мм) и глубиной 39,71 дюйма (1008,77 мм) с установленной рамкой. При полной загрузке он весит 251,44 фунта (114,05 кг). Выбор GPU будет иметь окончательное слово по весу: модель NVIDIA H100/H200 весит 238 фунтов, а блок AMD MI300X — 251 фунт.
Это был первый сервер, который потребовал тщательного обдумывания для правильной установки в нашей тестовой среде. Учитывая вес сервера и количество людей, необходимых для установки оборудования, есть некоторая свобода действий, чтобы выйти за рамки, но в определенный момент один или два человека не смогут поднять его в одиночку. Dell любезно предоставила «подъемный стол», чтобы помочь вам понять, как эта платформа вписывается. Всем, кто интересуется, Кевин сам установил XE9680 в стойку.
| Вес корпуса | Описание |
|---|---|
| 40 фунтов – 70 фунтов | Рекомендуется два человека для подъема. |
| 70 фунтов – 120 фунтов | Рекомендуется три человека для подъема. |
| ≥ 121 фунтов | Требуется подъемник для сервера. |
Несмотря на свою сложность и рекомендации Dell по привлечению специализированных сервисных техников, XE9680 оснащен удивительно удобными для пользователя сервисными элементами. Панели сервера содержат подробные инструкции по обслуживанию и четкие графические изображения, что делает процедуры обслуживания на удивление доступными для опытного ИТ-персонала. Эти визуальные руководства оказались бесценными во время нашей практической работы с системой, позволяя нам уверенно обслуживать различные компоненты.
После снятия крышки PowerEdge XE9680, как только вы пройдете мимо многочисленных кабелей питания от небольшой подстанции сверху, он будет очень похож на PowerEdge R760. Наш экземпляр был оснащен двумя процессорами Intel Xeon Platinum 8468, каждый с 48 ядрами и частотой 2,1 ГГц. Каждый процессор предлагает 80 линий PCIe, которые проходят через довольно много коммутаторов PCIe в этом устройстве для поддержки GPU, NIC и другого оборудования, установленного в XE9680.
Одной из самых впечатляющих инженерных особенностей является конструкция платы коммутатора PCIe (PSB). Эти платы обеспечивают подключение до 10 дополнительных карт PCIe высотой full-height и длиной half-length (две из которых могут потреблять более 75 Вт) и напрямую интегрируются с базовой платой GPU. Эта прямая интеграция обеспечивает технологию GPU-direct, позволяя SSD и сетевым картам напрямую взаимодействовать с GPU, минуя ЦП и снижая задержку для интенсивных ИИ-рабочих нагрузок.
Каждый слот расширения поддерживает полный интерфейс PCIe Gen5 x16, включая два нижних слота слева и справа. В то время как верхние восемь слотов подключены через собственный PSB, два нижних слота подключены напрямую к базовой плате PCIe (PBB). Эти два слота также поддерживают карты с высоким энергопотреблением. Кроме того, следует отметить, что компоновка PCIe немного отличается в зависимости от типа GPU, выбранного для PowerEdge XE9680. Модели с AMD не поддерживают SmartNIC/DPU, а модели с Intel Gaudi3 имеют два заблокированных слота из-за проблем с воздушным потоком.
Охлаждение — еще одна область, где проявляется инженерный опыт Dell. Система использует до 16 высокопроизводительных вентиляторов класса Gold — шесть в среднем лотке и десять сзади. PowerEdge XE9680 поддерживает широкий спектр сценариев установки с температурой окружающей среды от 10 до 35 °C (30 °C с GPU Intel Gaudi3). На полной мощности сервер перемещает впечатляющие 1200 куб. футов в минуту в горячий коридор.
Это надежное решение для охлаждения справляется даже с самыми требовательными тепловыми нагрузками, включая GPU AMD MI300X, Intel Gaudi3 или NVIDIA H100, поддерживая оптимальные рабочие температуры. PowerEdge XE9680 под нагрузкой довольно шумит. Dell предлагает полный лист акустических характеристик для XE9680 в различных ситуациях, но довольно легко сказать, что это будет громкая платформа под нагрузкой.
Управление
Возможности управления XE9680 построены на базе проверенного корпоративного решения Dell iDRAC9, которое обеспечивает комплексное управление жизненным циклом сервера и мониторинг. Эта итерация iDRAC включает несколько функций, оптимизированных для ИИ, включая подробную телеметрию GPU, аналитику энергопотребления и обширный тепловой мониторинг, разработанный для высокоплотных ИИ-рабочих нагрузок.
Стек управления платформой особенно примечателен для развертывания ИИ-инфраструктуры. Через RESTful API iDRAC9 с поддержкой Redfish организации могут программно отслеживать и управлять использованием GPU, пропускной способностью памяти и тепловыми условиями — критически важными метриками для поддержания оптимальной производительности обучения и инференса ИИ. Интеграция системы с OpenManage Enterprise позволяет управлять множеством XE9680 в масштабе всего парка через единую консоль, что необходимо для крупномасштабных ИИ-кластеров.
Безопасность и соответствие требованиям являются основополагающими элементами архитектуры управления. Платформа реализует Silicon Root of Trust и Secure Component Verification, обеспечивая целостность оборудования от загрузки до эксплуатации. Эти функции особенно ценны при выполнении конфиденциальных ИИ-рабочих нагрузок или при работе с проприетарными весами моделей.
Возможность предиктивного анализа отказов, основанная на интеграции с CloudIQ, использует машинное обучение для прогнозирования потенциальных аппаратных проблем до того, как они повлияют на рабочие нагрузки. Такой проактивный подход особенно важен для длительных заданий обучения ИИ, где неожиданный простой может привести к потере дней вычислений. В сочетании со службой Dell ProSupport Plus эта предиктивная возможность инициирует автоматическое создание заявки и отправку деталей, часто приводя к профилактическому обслуживанию до возникновения деградации системы.
Для организаций, которым требуется интеграция с существующими инструментами управления, XE9680 поддерживает различные системы управления через интеграции OpenManage, включая ServiceNow и BMC TrueSight, что позволяет беспрепятственно интегрироваться в установленные рабочие процессы управления ИТ-услугами.
Интерфейс iDRAC9 обеспечивает детальный мониторинг в реальном времени критически важных компонентов через интуитивно понятную панель. Мониторинг GPU отображает комплексные метрики, включая температуру, энергопотребление и уровни использования всех восьми ускорителей, что необходимо для оптимизации распределения ИИ-рабочих нагрузок.
Интерфейс мониторинга хранилища обеспечивает мгновенную видимость состояния накопителей, температуры и показателей производительности массива NVMe, что особенно ценно при управлении высокопроизводительными кэшами инференса и наборами данных для обучения.
Память, хранение данных и масштабирование
Восемь GPU AMD MI300X в Dell PowerEdge XE9680 представляют собой значительный скачок в объеме памяти GPU, предлагая 192 ГБ памяти HBM3 на карту по сравнению со 141 ГБ у NVIDIA H200. Это 36% увеличение объема памяти — это не просто цифра в спецификации, это критически важно для развертывания больших языковых моделей.
Этот огромный объем памяти в сочетании с пропускной способностью памяти MI300X в 5,3 ТБ/с позволяет организациям запускать несколько экземпляров меньших моделей или разделять большие модели между GPU, сохраняя при этом высокую пропускную способность и низкую задержку.
Чтобы понять это, модель Meta Llama 3.1 405B, требующая более 1 ТБ VRAM в BF16, может быть комфортно распределена по одному XE9680 с GPU MI300X без квантования и с полной длиной контекста 128k. Это устраняет потенциальную потерю качества, связанную с методами квантования, и позволяет получить больше токенов в секунду по сравнению с распределением модели по двум серверам.
Чтобы максимизировать наш объем хранения данных, мы использовали накопители Solidigm объемом 61,44 ТБ в качестве сложного расширения памяти, заполняя пробел между высокоскоростной памятью GPU и традиционным хранилищем. SSD отлично подходят для хранения пар ключ-значение в кэше при инференсе, эффективно расширяя объем памяти GPU для генерации с длинным контекстом. Их огромная емкость и производительность NVMe делают их идеальными для быстрого доступа к весам моделей, обеспечивая эффективное переключение моделей и «теплый старт».
В таких приложениях, как Metrum AI Healthcare Assistant, который мы подробно описываем ниже, SSD выполняют двойную функцию в качестве бэкэнда хранения для векторных баз данных, обеспечивая производительность, необходимую для поиска сходства в реальном времени, сохраняя при этом емкость для хранения обширных вложений.
Ценность этих накопителей большой емкости выходит за рамки инференса и распространяется на рабочие процессы обучения. Они обеспечивают идеальное локальное хранилище для постановки в очередь пакетов обучения, снижая накладные расходы на сеть, приближая данные к вычислительным ресурсам. Во время обучения эти накопители отлично подходят для локального хранения контрольных точек модели, что критически важно для поддержания прогресса обучения и обеспечения быстрого восстановления. Эта стратегия локального хранения также помогает оптимизировать использование сети, уменьшая немедленный сетевой трафик после каждой обработанной слоя и пакета.
Хотя емкость 61,44 ТБ в восьми отсеках XE9680 звучит многообещающе, в будущем появится еще большая емкость. С недавно анонсированным накопителем Solidigm объемом 122,88 ТБ плотность хранения в XE может быть удвоена почти до петабайта для дальнейшей оптимизации обучения и более долговечных кэшей инференса.
Metrum AI Healthcare Assistant — Революция в уходе за пациентами
Сектор здравоохранения постоянно сталкивается с проблемой управления трудоемкой документацией пациентов и управлением записями, что часто отвлекает от прямого ухода за пациентами. Metrum AI Healthcare Assistant, развернутый на серверах Dell PowerEdge XE9680 с ускорителями AMD, является примером того, как передовая ИИ-инфраструктура может трансформировать рабочие процессы в здравоохранении, повышая эффективность и улучшая результаты лечения пациентов.
Система использует Llama 3.1 70B Instruct в качестве основной языковой модели, известной своим пониманием медицинских контекстов. Это позволяет ей легко обрабатывать сложные данные пациентов. Эта языковая модель сопряжена с моделью вложений gte-v1.5 и векторной базой данных Milvus, обеспечивая надежную основу для обработки естественного языка и контекстного понимания, необходимого для работы с медицинскими данными.
Metrum AI Healthcare Assistant также включает мультимодальный подход, включающий HistoGPT для анализа гистопатологических изображений и Whisper от OpenAI для транскрипции заметок врача в реальном времени. Вместе эти модели оптимизируют клинические рабочие процессы, позволяя врачам говорить естественно, в то время как система транскрибирует, категоризирует и интегрирует информацию в записи пациентов в реальном времени.
Metrum AI признает, что, хотя отдельные данные пациента могут быть относительно небольшими, совокупные требования к хранению данных в больницах с высоким трафиком могут достигать сотен терабайт. Dell PowerEdge XE9680 может решить эту проблему с помощью локального встроенного хранилища NVMe. Наша конфигурация предлагает восемь отсеков для хранения U.2 NVMe 2,5 дюйма, работающих на скоростях PCIe Gen4. Хотя мы тестировали XE9680 с SSD QLC Soldigim D5-P5336 объемом 61,44 ТБ, эта емкость может быть еще больше увеличена. Soldigim недавно выпустила свои новые модели D5-P5336 QLC объемом 122,88 ТБ, которые удваивают емкость их уже массивных SSD, сохраняя при этом ту же производительность.
Metrum предоставил оценки того, как данные пациентов преобразуются со временем в различных сценариях. Когда вы рассчитываете это на общую емкость хранения, вы можете увидеть, скольким дополнительным пациентам может помочь устройство, используя SSD самой высокой емкости. Принимая предполагаемый объем данных на пациента и сравнивая его с полезной емкостью каждого SSD (57 ТБ для SSD 61 ТБ и 114 ТБ для SSD 122 ТБ), мы видим, что плотные SSD значительно увеличивают объем хранимого на сервере за год.
| Общая годовая оценка на пациента | Примечания | Оценочный объем хранения | Пациентов на 61 ТБ SSD | Пациентов на 122 ТБ SSD |
|---|---|---|---|---|
| Расширенные потребности в хранении (изображения DICOM/варианты, аугментации, обработанные копии, аудиозаписи, подробные записи) | Включает несколько копий изображений, аудиозаписи и записи | ~8,4 ГБ | 6 786 | 13 571 |
| Сценарий высокого хранения (интенсивная обработка, частые визиты) | Частые визиты, высокие требования к обработке изображений | ~10,5 ГБ | 5 428 | 10 857 |
Хотя первоначальные оценки на 1 год кажутся довольно высокими, важно отметить, что данные пациентов не статичны. Будут появляться новые данные и планироваться новые визиты, что увеличит спрос на хранение. Именно здесь хранение играет значительную роль в области медицинской визуализации. Дополнительная емкость хранения напрямую влияет на то, скольким пациентам может эффективно поддерживать решение.
| Общая 10-летняя оценка хранения на пациента | Примечания | Оценочный объем хранения | Пациентов на 61 ТБ SSD | Пациентов на 122 ТБ SSD |
|---|---|---|---|---|
| Расширенный сценарий (несколько копий, подробные записи, аудио, аугментации) | Расширенные записи, частая визуализация и обработка | ~84 ГБ | 679 | 1 357 |
| Высокий сценарий (интенсивная обработка, комплексная история) | Максимальные потребности в обработке и хранении за 10 лет | ~105 ГБ | 543 | 1 086 |
Dell PowerEdge XE9680, оснащенный ускорителями AMD MI300X и интегрированный с Metrum AI Healthcare Assistant, предоставляет масштабируемое и эффективное решение для поставщиков медицинских услуг. Автоматизируя трудоемкие задачи и обеспечивая быстрый доступ к критически важным сведениям, эта установка позволяет клиницистам больше сосредоточиться на уходе за пациентами, одновременно справляясь с растущими потребностями. Благодаря беспрепятственной интеграции ИИ-компонентов в языковых, графических и голосовых модальностях, Healthcare Assistant представляет собой значительный прогресс в решениях для здравоохранения на базе ИИ, снижая административную нагрузку и улучшая общие результаты лечения пациентов.
Заключение
Контактное лицо: Ms. Sandy Yang
Телефон: 13426366826



