Масштабирование контрольных пунктов ИИ: влияние высокопроизводительных SSD на обучение моделей

Все продукты

Сервер хранения шкафа
(179)

Сервер сплавливания Huawei
(31)

Сервер Dell Poweredge
(59)

Сервер H3C
(31)

Переключатели Datacom
(96)

Прибор WLAN
(21)

Умный беспроводной маршрутизатор
(17)

Жесткий диск HDD
(78)

Внутренний SSD жесткого диска
(16)

Карта Geforce графическая
(27)

Процессор C.P.U. INTEL
(20)

RAM памяти сервера
(6)

Приведенный сервер хранения
(6)

Модуль приемопередатчика SFP
(4)

Переключение каналов волокна
(125)

Сертификация

Китай Beijing Qianxing Jietong Technology Co., Ltd. Сертификаты

Просмотрения клиента

Торговый персонал CO. технологии Пекин Qianxing Jietong, Ltd очень профессионален и терпелив. Они могут обеспечить цитаты быстро. Качество и упаковка продуктов также очень хороши. Наше сотрудничество очень ровно.

—— LLC》 Festfing DV 《

Когда я искал C.P.U. intel и SSD Тошиба срочно, Sandy от CO. технологии Пекин Qianxing Jietong, Ltd дала мне много помощь и получила мне продукты мне быстро. Я действительно оцениваю ее.

—— Иены киски

Sandy CO. технологии Пекин Qianxing Jietong, Ltd очень осторожный продавец, который может напомнить меня об ошибок конфигурации во времени когда я покупаю сервер. Инженеры также очень профессиональны и могут быстро выполнить испытывая процесс.

—— Strelkin Mikhail Vladimirovich

Мы очень довольны нашим опытом работы с Beijing Qianxing Jietong. Качество продукции отличное, и доставка всегда вовремя. Их отдел продаж профессионален, терпелив и очень полезен во всех наших вопросах. Мы искренне ценим их поддержку и надеемся на долгосрочное партнерство. Настоятельно рекомендуется!

—— Ахмад Навид

Качество: Очень хороший опыт работы с моим поставщиком. МикроТик RB3011 уже использовался, но он был в очень хорошем состоянии и все работало идеально.и все мои проблемы были решены быстро- Очень надежный поставщик. - Очень рекомендую.

—— Джеран Колесио

Оставьте нам сообщение

Масштабирование контрольных пунктов ИИ: влияние высокопроизводительных SSD на обучение моделей

March 13, 2026

Резервное копирование (чекпоинтинг) имеет решающее значение для обучения моделей ИИ, поскольку оно обеспечивает отказоустойчивость, операционную эффективность и возможность возобновления или дообучения модели с сохраненных состояний. Однако требования современных рабочих нагрузок ИИ, характеризующиеся все более сложными моделями и обширными наборами обучающих данных, доводят системы хранения данных до предела.

Роль чекпоинтов в рабочих процессах ИИ

Чекпоинтинг в обучении ИИ — это жизненно важный процесс, который включает периодическое сохранение полного состояния модели во время ее цикла обучения. Это состояние включает веса и параметры модели, состояния оптимизатора, расписания скорости обучения и метаданные обучения. Создавая полный снимок процесса обучения через определенные интервалы, чекпоинтинг гарантирует непрерывность обучения и позволяет восстановиться в случае прерываний.

Чекпоинты обычно создаются с интервалами, основанными на количестве итераций (например, каждые тысячу шагов обучения). Обучение современных больших языковых моделей (LLM), которое может длиться недели или даже месяцы и потреблять огромные вычислительные ресурсы, в значительной степени полагается на эти чекпоинты как на систему безопасности против потенциальных сбоев. Например, обучение модели класса GPT-4 может генерировать чекпоинты размером от нескольких сотен гигабайт до нескольких терабайт, в зависимости от размера модели и конфигурации обучения.

Процесс обучения, сгенерированный DALL-E

Основная цель чекпоинтинга выходит за рамки простой функции резервного копирования. Он служит критически важным механизмом для обеспечения устойчивости обучения, позволяя возобновить обучение с последнего сохраненного состояния, а не начинать с нуля в случае сбоев системы, отключений электроэнергии или аппаратных проблем. Кроме того, чекпоинты бесценны для анализа моделей: они позволяют исследователям изучать эволюцию модели на разных этапах обучения и потенциально откатываться к предыдущим состояниям при обнаружении снижения производительности.

С точки зрения хранения данных, шаблоны записи во время чекпоинтинга особенно примечательны. Когда запускается чекпоинт, система должна записывать огромные объемы данных в пакетном режиме. Это создает четкий профиль ввода-вывода: периоды относительно низкой активности хранения данных во время вычислений обучения, за которыми следуют интенсивные операции записи с высокой пропускной способностью во время чекпоинтинга. Эти операции записи обычно последовательны и могут значительно выиграть от систем хранения данных, оптимизированных для последовательной записи с высокой пропускной способностью.

Различные стратегии параллелизма в распределенном обучении могут существенно повлиять на поведение чекпоинтинга. Эти стратегии влияют на то, когда происходит чекпоинтинг во время обучения и какая часть модели сохраняется. В современных распределенных системах обучения несколько графических процессоров могут одновременно записывать разные части одного и того же слоя, создавая сложные шаблоны ввода-вывода. Эта возможность параллельной записи является ключом к эффективности, но требует тщательной координации и надежных систем хранения данных, которые могут обрабатывать одновременные операции записи, сохраняя при этом согласованность данных. Любое узкое место в этом процессе может привести к широкомасштабным задержкам обучения.

Медленный чекпоинтинг может создавать значительные узкие места в обучении, поскольку весь процесс обучения должен приостанавливаться во время записи чекпоинта в хранилище. Например, в крупномасштабной системе обучения, если чекпоинтинг занимает 30 минут каждые несколько часов, это может привести к накоплению нескольких часов простоя за весь период обучения. Это напрямую влияет на эффективность обучения и увеличивает операционные расходы, особенно в облачных средах, где вычислительные ресурсы оплачиваются почасово.

Более быстрый чекпоинтинг также позволяет командам создавать чекпоинты чаще, сокращая максимальный потенциальный объем потери данных в случае сбоев. Это позволяет применять более агрессивные подходы к обучению и улучшать циклы экспериментальных итераций. Кроме того, быстрое время загрузки чекпоинтов облегчает более быстрое экспериментирование с различными конфигурациями обучения и архитектурами моделей, поскольку исследователи могут легче восстанавливаться из предыдущих состояний для тестирования альтернативных подходов.

Способность системы хранения данных эффективно обрабатывать эти операции чекпоинтинга становится ключевым фактором общей инфраструктуры обучения. Высокопроизводительные решения для хранения данных, способные управлять как пакетными шаблонами записи чекпоинтинга, так и устойчивыми операциями чтения/записи обучения, могут значительно сократить общее время и стоимость обучения больших языковых моделей. Таким образом, характеристики производительности подсистемы хранения данных, особенно ее способность обрабатывать большие последовательные записи и поддерживать постоянную высокую пропускную способность, являются критически важными соображениями при проектировании инфраструктуры обучения LLM.

Для этого отчета мы стремились оценить производительность SSD для чекпоинтинга ИИ, оценивая преимущества новейших SSD Gen5, когда скорость чекпоинтинга имеет решающее значение, по сравнению с крупнейшими QLC SSD на рынке, которые могут хранить огромное количество чекпоинтов, если это более выгодно для обучаемой модели.

Производительность чекпоинтинга – бенчмаркинг с DLIO

Для оценки реальной производительности SSD Solidigm в средах обучения ИИ мы использовали эталонный инструмент Data and Learning Input/Output (DLIO). Разработанный Аргоннской национальной лабораторией, DLIO специально предназначен для тестирования шаблонов ввода-вывода в рабочих нагрузках глубокого обучения, предоставляя информацию о том, как системы хранения данных справляются с чекпоинтингом, приемом данных и проблемами обучения моделей.

Используя DLIO, мы стремились измерить пропускную способность, задержку и надежность накопителя в сценариях интенсивного чекпоинтинга. Хотя это тестирование проводилось на D5-P5336 объемом 61,44 ТБ, первоначальные данные о производительности указывают на то, что версия Solidigm D5-P5336 объемом 122 ТБ предлагает аналогичный профиль производительности. Мы также включили результаты от D7-PS1010 на основе TLC, чтобы продемонстрировать преимущества PCIe Gen5 в этом тесте. Мы выбрали эти два накопителя, чтобы показать обе точки зрения на чекпоинты: один, ориентированный на максимально возможное время чекпоинтинга, а другой – на хранение максимального количества чекпоинтов на одном SSD.

Платформой, выбранной для этой работы, был наш Dell PowerEdge R760 под управлением Ubuntu 22.04.02 LTS. Мы использовали эталонную версию DLIO 2.0 из выпуска от 13 августа 2024 года. Конфигурация нашей системы представлена ниже:

2 x Intel Xeon Gold 6430 (32 ядра, 2,1 ГГц)
16 x 64 ГБ DDR5-4400
480 ГБ Dell BOSS SSD
Последовательные кабели Gen5 JBOF
- 7,68 ТБ Solidigm D7-PS1010
- 61,44 ТБ Solidigm D5-P5336

Чтобы гарантировать, что наши бенчмарки отражают реальные сценарии, мы основывали наше тестирование на архитектуре модели LLAMA 3.1 405B, реализуя чекпоинтинг через torch.save() для захвата параметров модели, состояний оптимизатора и состояний слоев. Наша установка имитировала систему с 8 GPU, реализующую гибридную стратегию параллелизма с 4-кратным тензорным параллелизмом и 2-кратным конвейерным параллелизмом, распределенным по восьми GPU. Эта конфигурация привела к размерам чекпоинтов 1636 ГБ, что является репрезентативным для современных требований к обучению больших языковых моделей.

Наш процесс тестирования рабочей нагрузки чекпоинтинга DLIO состоял в заполнении каждого накопителя до аналогичного уровня использования. Для Solidigm D5-P5336 объемом 61,44 ТБ каждый проход включал 33 интервала чекпоинтинга, что составило 54 ТБ. Меньший D7-PS1010 объемом 7,68 ТБ комфортно вместил три интервала чекпоинтинга с общим объемом 4,9 ТБ. Один дополнительный чекпоинт мог поместиться в D7-PS1010, хотя это и привело к его использованию немного выше, чем мы хотели.

Рабочая нагрузка чекпоинтинга DLIO дала интересные результаты, когда мы сравнили Gen4 QLC-based 61,44 ТБ D5-P5536 с Gen5 TLC-based 7,68 ТБ D7-PS1010. Во время первого прохода, по мере заполнения накопителей, мы наблюдали более широкий разрыв в производительности между двумя моделями SSD. Более быстрый Gen5 PS1010 завершал каждый чекпоинт в среднем за 464 секунды по сравнению с 623 секундами от Gen4 P5336. Во втором и третьем проходах разрыв сократился до 579 и 587 секунд для PS1010 и 676 и 680 секунд для P5336.

Для компаний, стремящихся к минимально возможному разрыву в интервалах чекпоинтинга, Gen5 PS1010 на основе TLC предлагает преимущество в самое быстрое время завершения. Если цель состоит в том, чтобы экономически эффективно хранить множество чекпоинтов, QLC-based Gen4 P5336 может сделать именно это. Мы измерили разницу в среднем времени чекпоинтинга менее 17% между обоими накопителями во время второго и третьего проходов.

Пропускная способность GPUDirect Storage

В то время как DLIO показывает производительность флэш-памяти в рабочем процессе ИИ, рабочая нагрузка полностью основана на записи до тех пор, пока чекпоинт не будет восстановлен. Чтобы получить более полную картину Solidigm D7-PS1010 и D5-P5336 в рабочих нагрузках ИИ, мы включили измерения пропускной способности чтения с использованием GDSIO.

Как работает GPU Direct Storage

Традиционно, когда GPU обрабатывает данные, хранящиеся на NVMe-накопителе, данные сначала должны пройти через ЦП и системную память, прежде чем достичь GPU. Этот процесс создает узкие места, поскольку ЦП становится посредником, добавляя задержку и потребляя ценные системные ресурсы. GPU Direct Storage устраняет эту неэффективность, позволяя GPU получать доступ к данным непосредственно с устройства хранения данных через шину PCIe. Этот прямой путь снижает накладные расходы, связанные с перемещением данных, обеспечивая более быструю и эффективную передачу данных.

Рабочие нагрузки ИИ, особенно те, которые связаны с глубоким обучением, очень интенсивно используют данные. Обучение больших нейронных сетей требует обработки терабайт данных, и любая задержка в передаче данных может привести к неполной загрузке GPU и увеличению времени обучения. GPU Direct Storage решает эту проблему, обеспечивая максимально быструю доставку данных в GPU, минимизируя время простоя и максимизируя вычислительную эффективность.

Как и в тесте DLIO, цель состоит в том, чтобы лучше понять и охарактеризовать различия между высокоскоростными SSD Gen5 и QLC-накопителями высокой емкости. Не каждая рабочая нагрузка ИИ одинакова, и каждый накопитель предлагает различные преимущества в зависимости от потребностей.

Матрица конфигурации тестирования

Мы систематически тестировали каждую комбинацию следующих параметров с NVIDIA L4 на нашей тестовой платформе:

Размеры блоков: 1M, 128K, 64K, 16K, 8K
Количество потоков: 128, 64, 32, 16, 8, 4, 1
Количество заданий: 16
Размеры пакетов: 16

Наш первый взгляд был на D5-P5336 на основе QLC, который достиг максимума в 4,2 ГБ/с при размере передачи 1 МБ и глубине ввода-вывода 128. Эффект размеров блоков дал существенное увеличение пропускной способности при переходе от 8 КБ к 1 МБ. Преимущество увеличенной глубины ввода-вывода начало снижаться при 32, где рабочие нагрузки начали выравниваться.

Далее мы рассмотрим Gen5 PS-1010, который может масштабироваться до 6,2 ГБ/с при размере блока 1 МБ и глубине ввода-вывода 128. В целом, он превзошел P5336 на базе Gen4, причем некоторые рабочие нагрузки продемонстрировали существенное улучшение. Одно заметное улучшение было достигнуто при размере блока 128 КБ, где при глубине ввода-вывода 64 и 128 PS1010 предложил удвоенную пропускную способность чтения по сравнению с P5336.

Важно отметить, что оба SSD тестировались с использованием NVIDIA L4. В то время как Gen4 D5-P5336 находится на пределе своих возможностей или близко к нему, более мощные GPU NVIDIA, такие как H100, продемонстрировали более высокую производительность с D7-PS1010. Скорость накопителя является решающим фактором для некоторых клиентов, в то время как другие отдают предпочтение общей плотности.Solidigmпредлагает решения дляобоих, с егопредложениями QLC и TLC SSD.

Заключение

Поскольку масштаб и сложность обучения ИИ продолжают расти, базовая инфраструктура хранения данных должна не только идти в ногу, но и задавать темп. Наши тесты с двумя совершенно разными SSD подчеркивают важность согласования решений для хранения данных с конкретными приоритетами обучения, будь то минимизация задержки чекпоинтинга или максимизация плотности чекпоинтинга для экономически эффективного масштабирования.

В нашей оценке мы протестировали Solidigm D5-P5336 (61,44 ТБ) и D7-PS1010 (7,68 ТБ) в реалистичных условиях обучения ИИ, используя эталонный тест DLIO и обширный рабочий процесс чекпоинтинга LLM с гибридным параллелизмом. Мы собрали метрики, отражающие производительность записи чекпоинтов в нескольких тестовых прогонах по мере заполнения накопителей, подчеркивая различия в производительности по времени завершения между Gen4 QLC-based D5-P5336 и Gen5 TLC-based D7-PS1010.

В то время как D7-PS1010 обеспечил максимально быструю запись чекпоинтов, D5-P5336 продемонстрировал убедительную экономическую эффективность и преимущества в емкости, с лишь незначительным компромиссом в производительности. Мы далее изучили пропускную способность чтения GPU Direct Storage (GDS) с использованием GDSIO с GPU NVIDIA L4. Наши результаты показали, что Solidigm D5-P5336 обеспечил пропускную способность чтения до 4,2 ГБ/с при размере передачи 1 МБ, в то время как D7-PS1010 обеспечил существенное увеличение до 6,2 ГБ/с. Производительность была бы еще более впечатляющей при использовании более мощного GPU, такого как NVIDIA L40s или H100/H200.

В будущем беспрецедентная емкость SSD Solidigm D5-P5336 объемом 122 ТБ готова изменить обучение и развертывание ИИ. По мере роста размеров моделей и требований к чекпоинтингу эти накопители большой емкости открывают новые уровни эффективности и гибкости, позволяя применять стратегии обучения, которые ранее были недостижимы. Лидерство Solidigm в решениях SSD большой емкости позволяет организациям хранить больше данных и чекпоинтов на меньшем количестве накопителей, помогая при этом защитить свои инфраструктуры от следующей волны сложности ИИ.

Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг/Директор по глобальной стратегии
WhatsApp / WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Веб-сайт: www.qianxingdata.com/www.storagesserver.com

Основная деятельность:
Дистрибуция ИКТ-продукции/Системная интеграция и услуги/Инфраструктурные решения
Обладая более чем 20-летним опытом дистрибуции ИТ, мы сотрудничаем с ведущими мировыми брендами, чтобы поставлять надежные продукты и профессиональные услуги.
«Используя технологии для построения интеллектуального мира» Ваш надежный поставщик услуг ИКТ-продукции!

PREV: SSD Micron 6550 ION: Производительность Gen5, энергоэффективность и высокая емкость в одном накопителе

NEXT: Жидкостное охлаждение приходит в ваш центр обработки данных: Dell Tech World освещает варианты

Контактная информация

Beijing Qianxing Jietong Technology Co., Ltd.

Контактное лицо: Ms. Sandy Yang

Телефон: 13426366826

Масштабирование контрольных пунктов ИИ: влияние высокопроизводительных SSD на обучение моделей

Сервер хранения шкафа

Сервер сплавливания Huawei

Сервер Dell Poweredge

Сервер H3C

Переключатели Datacom

Прибор WLAN

Умный беспроводной маршрутизатор

Жесткий диск HDD

Внутренний SSD жесткого диска

Карта Geforce графическая

Процессор C.P.U. INTEL

RAM памяти сервера

Приведенный сервер хранения

Модуль приемопередатчика SFP

Переключение каналов волокна

Масштабирование контрольных пунктов ИИ: влияние высокопроизводительных SSD на обучение моделей

Пропускная способность GPUDirect Storage

Как работает GPU Direct Storage

Матрица конфигурации тестирования

Заключение

Сервер хранения шкафа

12 сервер шкафа Lenovo ThinkSystem SR630 сервера заливов 1U Rackmount

Процессор Intel Xeon E-2378G сервера хранения шкафа ThinkSystem SR250 V2 4SFF

Сервер держателя шкафа Inspur NF5180M6 1U сервера хранения шкафа Intel C621A

Сервер сплавливания Huawei

Сервер 32 DDR4 DIMMs шкафа FusionServer 5288 V6 4U 44 жесткого диска 3,5 дюйма

Ультра сервер 1288H V5 хранения сети сервера 1U сплавливания Huawei высокой плотности

Хранение нового сервера шкафа Gen OceanStor 5310 Huawei гибридное внезапное