Резервное копирование (чекпоинтинг) имеет решающее значение для обучения моделей ИИ, поскольку оно обеспечивает отказоустойчивость, операционную эффективность и возможность возобновления или дообучения модели с сохраненных состояний. Однако требования современных рабочих нагрузок ИИ, характеризующиеся все более сложными моделями и обширными наборами обучающих данных, доводят системы хранения данных до предела.
Роль чекпоинтов в рабочих процессах ИИ
Чекпоинтинг в обучении ИИ — это жизненно важный процесс, который включает периодическое сохранение полного состояния модели во время ее цикла обучения. Это состояние включает веса и параметры модели, состояния оптимизатора, расписания скорости обучения и метаданные обучения. Создавая полный снимок процесса обучения через определенные интервалы, чекпоинтинг гарантирует непрерывность обучения и позволяет восстановиться в случае прерываний.
Чекпоинты обычно создаются с интервалами, основанными на количестве итераций (например, каждые тысячу шагов обучения). Обучение современных больших языковых моделей (LLM), которое может длиться недели или даже месяцы и потреблять огромные вычислительные ресурсы, в значительной степени полагается на эти чекпоинты как на систему безопасности против потенциальных сбоев. Например, обучение модели класса GPT-4 может генерировать чекпоинты размером от нескольких сотен гигабайт до нескольких терабайт, в зависимости от размера модели и конфигурации обучения.
Процесс обучения, сгенерированный DALL-E
Основная цель чекпоинтинга выходит за рамки простой функции резервного копирования. Он служит критически важным механизмом для обеспечения устойчивости обучения, позволяя возобновить обучение с последнего сохраненного состояния, а не начинать с нуля в случае сбоев системы, отключений электроэнергии или аппаратных проблем. Кроме того, чекпоинты бесценны для анализа моделей: они позволяют исследователям изучать эволюцию модели на разных этапах обучения и потенциально откатываться к предыдущим состояниям при обнаружении снижения производительности.
С точки зрения хранения данных, шаблоны записи во время чекпоинтинга особенно примечательны. Когда запускается чекпоинт, система должна записывать огромные объемы данных в пакетном режиме. Это создает четкий профиль ввода-вывода: периоды относительно низкой активности хранения данных во время вычислений обучения, за которыми следуют интенсивные операции записи с высокой пропускной способностью во время чекпоинтинга. Эти операции записи обычно последовательны и могут значительно выиграть от систем хранения данных, оптимизированных для последовательной записи с высокой пропускной способностью.
Различные стратегии параллелизма в распределенном обучении могут существенно повлиять на поведение чекпоинтинга. Эти стратегии влияют на то, когда происходит чекпоинтинг во время обучения и какая часть модели сохраняется. В современных распределенных системах обучения несколько графических процессоров могут одновременно записывать разные части одного и того же слоя, создавая сложные шаблоны ввода-вывода. Эта возможность параллельной записи является ключом к эффективности, но требует тщательной координации и надежных систем хранения данных, которые могут обрабатывать одновременные операции записи, сохраняя при этом согласованность данных. Любое узкое место в этом процессе может привести к широкомасштабным задержкам обучения.
Медленный чекпоинтинг может создавать значительные узкие места в обучении, поскольку весь процесс обучения должен приостанавливаться во время записи чекпоинта в хранилище. Например, в крупномасштабной системе обучения, если чекпоинтинг занимает 30 минут каждые несколько часов, это может привести к накоплению нескольких часов простоя за весь период обучения. Это напрямую влияет на эффективность обучения и увеличивает операционные расходы, особенно в облачных средах, где вычислительные ресурсы оплачиваются почасово.
Более быстрый чекпоинтинг также позволяет командам создавать чекпоинты чаще, сокращая максимальный потенциальный объем потери данных в случае сбоев. Это позволяет применять более агрессивные подходы к обучению и улучшать циклы экспериментальных итераций. Кроме того, быстрое время загрузки чекпоинтов облегчает более быстрое экспериментирование с различными конфигурациями обучения и архитектурами моделей, поскольку исследователи могут легче восстанавливаться из предыдущих состояний для тестирования альтернативных подходов.
Способность системы хранения данных эффективно обрабатывать эти операции чекпоинтинга становится ключевым фактором общей инфраструктуры обучения. Высокопроизводительные решения для хранения данных, способные управлять как пакетными шаблонами записи чекпоинтинга, так и устойчивыми операциями чтения/записи обучения, могут значительно сократить общее время и стоимость обучения больших языковых моделей. Таким образом, характеристики производительности подсистемы хранения данных, особенно ее способность обрабатывать большие последовательные записи и поддерживать постоянную высокую пропускную способность, являются критически важными соображениями при проектировании инфраструктуры обучения LLM.
Для этого отчета мы стремились оценить производительность SSD для чекпоинтинга ИИ, оценивая преимущества новейших SSD Gen5, когда скорость чекпоинтинга имеет решающее значение, по сравнению с крупнейшими QLC SSD на рынке, которые могут хранить огромное количество чекпоинтов, если это более выгодно для обучаемой модели.
Производительность чекпоинтинга – бенчмаркинг с DLIO
Для оценки реальной производительности SSD Solidigm в средах обучения ИИ мы использовали эталонный инструмент Data and Learning Input/Output (DLIO). Разработанный Аргоннской национальной лабораторией, DLIO специально предназначен для тестирования шаблонов ввода-вывода в рабочих нагрузках глубокого обучения, предоставляя информацию о том, как системы хранения данных справляются с чекпоинтингом, приемом данных и проблемами обучения моделей.

Используя DLIO, мы стремились измерить пропускную способность, задержку и надежность накопителя в сценариях интенсивного чекпоинтинга. Хотя это тестирование проводилось на D5-P5336 объемом 61,44 ТБ, первоначальные данные о производительности указывают на то, что версия Solidigm D5-P5336 объемом 122 ТБ предлагает аналогичный профиль производительности. Мы также включили результаты от D7-PS1010 на основе TLC, чтобы продемонстрировать преимущества PCIe Gen5 в этом тесте. Мы выбрали эти два накопителя, чтобы показать обе точки зрения на чекпоинты: один, ориентированный на максимально возможное время чекпоинтинга, а другой – на хранение максимального количества чекпоинтов на одном SSD.
Платформой, выбранной для этой работы, был наш Dell PowerEdge R760 под управлением Ubuntu 22.04.02 LTS. Мы использовали эталонную версию DLIO 2.0 из выпуска от 13 августа 2024 года. Конфигурация нашей системы представлена ниже:
- 2 x Intel Xeon Gold 6430 (32 ядра, 2,1 ГГц)
- 16 x 64 ГБ DDR5-4400
- 480 ГБ Dell BOSS SSD
- Последовательные кабели Gen5 JBOF
- 7,68 ТБ Solidigm D7-PS1010
- 61,44 ТБ Solidigm D5-P5336
Чтобы гарантировать, что наши бенчмарки отражают реальные сценарии, мы основывали наше тестирование на архитектуре модели LLAMA 3.1 405B, реализуя чекпоинтинг через torch.save() для захвата параметров модели, состояний оптимизатора и состояний слоев. Наша установка имитировала систему с 8 GPU, реализующую гибридную стратегию параллелизма с 4-кратным тензорным параллелизмом и 2-кратным конвейерным параллелизмом, распределенным по восьми GPU. Эта конфигурация привела к размерам чекпоинтов 1636 ГБ, что является репрезентативным для современных требований к обучению больших языковых моделей.
Наш процесс тестирования рабочей нагрузки чекпоинтинга DLIO состоял в заполнении каждого накопителя до аналогичного уровня использования. Для Solidigm D5-P5336 объемом 61,44 ТБ каждый проход включал 33 интервала чекпоинтинга, что составило 54 ТБ. Меньший D7-PS1010 объемом 7,68 ТБ комфортно вместил три интервала чекпоинтинга с общим объемом 4,9 ТБ. Один дополнительный чекпоинт мог поместиться в D7-PS1010, хотя это и привело к его использованию немного выше, чем мы хотели.
Рабочая нагрузка чекпоинтинга DLIO дала интересные результаты, когда мы сравнили Gen4 QLC-based 61,44 ТБ D5-P5536 с Gen5 TLC-based 7,68 ТБ D7-PS1010. Во время первого прохода, по мере заполнения накопителей, мы наблюдали более широкий разрыв в производительности между двумя моделями SSD. Более быстрый Gen5 PS1010 завершал каждый чекпоинт в среднем за 464 секунды по сравнению с 623 секундами от Gen4 P5336. Во втором и третьем проходах разрыв сократился до 579 и 587 секунд для PS1010 и 676 и 680 секунд для P5336.
Для компаний, стремящихся к минимально возможному разрыву в интервалах чекпоинтинга, Gen5 PS1010 на основе TLC предлагает преимущество в самое быстрое время завершения. Если цель состоит в том, чтобы экономически эффективно хранить множество чекпоинтов, QLC-based Gen4 P5336 может сделать именно это. Мы измерили разницу в среднем времени чекпоинтинга менее 17% между обоими накопителями во время второго и третьего проходов.
Пропускная способность GPUDirect Storage
В то время как DLIO показывает производительность флэш-памяти в рабочем процессе ИИ, рабочая нагрузка полностью основана на записи до тех пор, пока чекпоинт не будет восстановлен. Чтобы получить более полную картину Solidigm D7-PS1010 и D5-P5336 в рабочих нагрузках ИИ, мы включили измерения пропускной способности чтения с использованием GDSIO.
Как работает GPU Direct Storage
Традиционно, когда GPU обрабатывает данные, хранящиеся на NVMe-накопителе, данные сначала должны пройти через ЦП и системную память, прежде чем достичь GPU. Этот процесс создает узкие места, поскольку ЦП становится посредником, добавляя задержку и потребляя ценные системные ресурсы. GPU Direct Storage устраняет эту неэффективность, позволяя GPU получать доступ к данным непосредственно с устройства хранения данных через шину PCIe. Этот прямой путь снижает накладные расходы, связанные с перемещением данных, обеспечивая более быструю и эффективную передачу данных.
Рабочие нагрузки ИИ, особенно те, которые связаны с глубоким обучением, очень интенсивно используют данные. Обучение больших нейронных сетей требует обработки терабайт данных, и любая задержка в передаче данных может привести к неполной загрузке GPU и увеличению времени обучения. GPU Direct Storage решает эту проблему, обеспечивая максимально быструю доставку данных в GPU, минимизируя время простоя и максимизируя вычислительную эффективность.
Как и в тесте DLIO, цель состоит в том, чтобы лучше понять и охарактеризовать различия между высокоскоростными SSD Gen5 и QLC-накопителями высокой емкости. Не каждая рабочая нагрузка ИИ одинакова, и каждый накопитель предлагает различные преимущества в зависимости от потребностей.
Матрица конфигурации тестирования
Мы систематически тестировали каждую комбинацию следующих параметров с NVIDIA L4 на нашей тестовой платформе:
- Размеры блоков: 1M, 128K, 64K, 16K, 8K
- Количество потоков: 128, 64, 32, 16, 8, 4, 1
- Количество заданий: 16
- Размеры пакетов: 16
Наш первый взгляд был на D5-P5336 на основе QLC, который достиг максимума в 4,2 ГБ/с при размере передачи 1 МБ и глубине ввода-вывода 128. Эффект размеров блоков дал существенное увеличение пропускной способности при переходе от 8 КБ к 1 МБ. Преимущество увеличенной глубины ввода-вывода начало снижаться при 32, где рабочие нагрузки начали выравниваться.
Далее мы рассмотрим Gen5 PS-1010, который может масштабироваться до 6,2 ГБ/с при размере блока 1 МБ и глубине ввода-вывода 128. В целом, он превзошел P5336 на базе Gen4, причем некоторые рабочие нагрузки продемонстрировали существенное улучшение. Одно заметное улучшение было достигнуто при размере блока 128 КБ, где при глубине ввода-вывода 64 и 128 PS1010 предложил удвоенную пропускную способность чтения по сравнению с P5336.
Важно отметить, что оба SSD тестировались с использованием NVIDIA L4. В то время как Gen4 D5-P5336 находится на пределе своих возможностей или близко к нему, более мощные GPU NVIDIA, такие как H100, продемонстрировали более высокую производительность с D7-PS1010. Скорость накопителя является решающим фактором для некоторых клиентов, в то время как другие отдают предпочтение общей плотности.Solidigmпредлагает решения дляобоих, с егопредложениями QLC и TLC SSD.
Заключение
Поскольку масштаб и сложность обучения ИИ продолжают расти, базовая инфраструктура хранения данных должна не только идти в ногу, но и задавать темп. Наши тесты с двумя совершенно разными SSD подчеркивают важность согласования решений для хранения данных с конкретными приоритетами обучения, будь то минимизация задержки чекпоинтинга или максимизация плотности чекпоинтинга для экономически эффективного масштабирования.
В нашей оценке мы протестировали Solidigm D5-P5336 (61,44 ТБ) и D7-PS1010 (7,68 ТБ) в реалистичных условиях обучения ИИ, используя эталонный тест DLIO и обширный рабочий процесс чекпоинтинга LLM с гибридным параллелизмом. Мы собрали метрики, отражающие производительность записи чекпоинтов в нескольких тестовых прогонах по мере заполнения накопителей, подчеркивая различия в производительности по времени завершения между Gen4 QLC-based D5-P5336 и Gen5 TLC-based D7-PS1010.

В то время как D7-PS1010 обеспечил максимально быструю запись чекпоинтов, D5-P5336 продемонстрировал убедительную экономическую эффективность и преимущества в емкости, с лишь незначительным компромиссом в производительности. Мы далее изучили пропускную способность чтения GPU Direct Storage (GDS) с использованием GDSIO с GPU NVIDIA L4. Наши результаты показали, что Solidigm D5-P5336 обеспечил пропускную способность чтения до 4,2 ГБ/с при размере передачи 1 МБ, в то время как D7-PS1010 обеспечил существенное увеличение до 6,2 ГБ/с. Производительность была бы еще более впечатляющей при использовании более мощного GPU, такого как NVIDIA L40s или H100/H200.
В будущем беспрецедентная емкость SSD Solidigm D5-P5336 объемом 122 ТБ готова изменить обучение и развертывание ИИ. По мере роста размеров моделей и требований к чекпоинтингу эти накопители большой емкости открывают новые уровни эффективности и гибкости, позволяя применять стратегии обучения, которые ранее были недостижимы. Лидерство Solidigm в решениях SSD большой емкости позволяет организациям хранить больше данных и чекпоинтов на меньшем количестве накопителей, помогая при этом защитить свои инфраструктуры от следующей волны сложности ИИ.
Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг/Директор по глобальной стратегии
WhatsApp / WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Веб-сайт: www.qianxingdata.com/www.storagesserver.com
Основная деятельность:
Дистрибуция ИКТ-продукции/Системная интеграция и услуги/Инфраструктурные решения
Обладая более чем 20-летним опытом дистрибуции ИТ, мы сотрудничаем с ведущими мировыми брендами, чтобы поставлять надежные продукты и профессиональные услуги.
«Используя технологии для построения интеллектуального мира» Ваш надежный поставщик услуг ИКТ-продукции!