logo
Главная страница Новости

новости компании о Демонстрация Lightbits и ScaleFlux 100x до 280x КВ Ускорение кэша

Сертификация
Китай Beijing Qianxing Jietong Technology Co., Ltd. Сертификаты
Китай Beijing Qianxing Jietong Technology Co., Ltd. Сертификаты
Просмотрения клиента
Торговый персонал CO. технологии Пекин Qianxing Jietong, Ltd очень профессионален и терпелив. Они могут обеспечить цитаты быстро. Качество и упаковка продуктов также очень хороши. Наше сотрудничество очень ровно.

—— LLC》 Festfing DV 《

Когда я искал C.P.U. intel и SSD Тошиба срочно, Sandy от CO. технологии Пекин Qianxing Jietong, Ltd дала мне много помощь и получила мне продукты мне быстро. Я действительно оцениваю ее.

—— Иены киски

Sandy CO. технологии Пекин Qianxing Jietong, Ltd очень осторожный продавец, который может напомнить меня об ошибок конфигурации во времени когда я покупаю сервер. Инженеры также очень профессиональны и могут быстро выполнить испытывая процесс.

—— Strelkin Mikhail Vladimirovich

Мы очень довольны нашим опытом работы с Beijing Qianxing Jietong. Качество продукции отличное, и доставка всегда вовремя. Их отдел продаж профессионален, терпелив и очень полезен во всех наших вопросах. Мы искренне ценим их поддержку и надеемся на долгосрочное партнерство. Настоятельно рекомендуется!

—— Ахмад Навид

Качество: Очень хороший опыт работы с моим поставщиком. МикроТик RB3011 уже использовался, но он был в очень хорошем состоянии и все работало идеально.и все мои проблемы были решены быстро- Очень надежный поставщик. - Очень рекомендую.

—— Джеран Колесио

Оставьте нам сообщение
компания Новости
Демонстрация Lightbits и ScaleFlux 100x до 280x КВ Ускорение кэша
Лаборатории Lightbits и ScaleFlux достиглиУвеличение производительности от 100 до 280 раздля KV кэша нагрузки за счет использования LightInferra кэша программного обеспечения для чтения данных из ScaleFlux вычислительных SSD.

Обе компании предоставили данные кэша KV для графических процессоров, развернутых в среде центра обработки данных FarmGPU, и продемонстрируют этот прорыв на предстоящей конференции GTC Nvidia.КВ кэш хранит токен-векторы в высокополосной памяти GPU (HBM)После того, как емкость HBM исчерпана, блоки данных кэша KV должны быть пересчитаны - процесс, который требует времени и ухудшает обучение ИИ и скорость выводов.Это замедление становится особенно выраженным по мере увеличения рабочей нагрузки на ИИ, что приводит к резкому увеличению числа токенов, используемых для генерации векторов.

Программное обеспечение кэша KV логически расширяет слой кэша: сначала к процессору x86 и его DRAM на сервере GPU, затем к локальным накопителям NVMe в той же системе x86 и далее к внешним SSD NVMe.Это многоуровневое расширение устраняет необходимость пересчета токен-векторовВ то время как NVMe SSD, естественно, имеют более высокую задержку доступа, чем HBM или DRAM, извлечение предварительно вычисленных векторов токенов намного быстрее, чем пересчет десятков тысяч из них с нуля.Lightbits и ScaleFlux утверждают, что их решение значительно ускоряет восстановление данных кэша KV с SSD.

Артур Расмуссон, директор по архитектуре ИИ в Lightbits Labs, заявил: "Мы преобразуем выводную память из реактивного кэша в интеллектуальный, потоковый слой данных".

- Как? Как?


Предоставляя только важные данные и доставляя их на графические процессоры через высокоскоростную RDMA до того, как они понадобятся, мы устраняем заторы, которые традиционно ограничивают производительность длинного контекста.Результат - более низкий Time-to-First-Token (TTFT), более стабильная пропускная способность при нагрузке в реальном мире и значительно более высокое эффективное использование GPU.

Кит Маккей, старший директор по архитектуре решений и техническим партнерствам в ScaleFlux, прокомментировал:Мы показываем на GTC ранний взгляд на то, как более интеллектуальное размещение данных и постоянное управление состоянием внимания могут помочь системам выводов оставаться отзывчивыми по мере роста контекстных окон.Мы хотим создать сотрудничество с реальными операторами.

Как Lightbits, так и ScaleFlux стремятся поощрять операторов облачных и инфраструктурных систем к внедрению своего программного обеспечения и SSD, устраняя дорогостоящее время простоя GPU.

Давайте сначала рассмотрим вклад ScaleFlux, а затем перейдем к более сложному программному слою Lightbits.

ScaleFlux предоставляет NVMe SSD и вычислительные накопители (CSD), оснащенные аппаратной технологией сокращения записи (WRT).Используется аппаратно-ускоренным сжатием и управлением метаданными на основе SoC, эти диски обеспечивают до четырех раз большую логическую емкость, чем физическое хранилище, при этом оставаясь полностью прозрачными для хост-систем.Компания является членом консорциума Open Flash Platform (OFP)., которая работает над переопределением инфраструктуры данных ИИ с плотной, низкой задержкой,энергоэффективные системы предлагающие 10 раз больше плотности обычного хранилища на базе файлов ИИ и только одну десятую энергопотребления.

Основываясь на этих накопителях, Lightbits добавляет интеллектуальное предварительное получение данных KV Cacheдо этогоGPU требуют этого, предотвращая заторы, вызванные недостаточной емкостью KV или дорогостоящим перерасчетом вектора токенов.Его программное обеспечение LightInferra использует KV Cache-оптимизированные алгоритмы кэширования для извлечения необходимых данных в GPU-память на скорости RDMA раньше фактического спроса.

Опять, как?


Программное обеспечение работает на хосте x86, встроенном в серверы GPU и отслеживает шаблоны доступа к блокам данных KV Cache.он работает с подлинейным двигателем сдерживания внимания (SLSAP) для определения блоков KV, которые, вероятно, понадобятся в следующий раз..

Этот двигатель сочетает в себе локально-чувствительный хэшинг (LSH) со статистическим моделированием повторного использования анализируя локальность исторического доступа в вычислениях внимания для оценки и распределения приоритетов блоков KV,затем выбирает те, с наибольшей вероятностью быть запрошенными GPU.

Этот процесс отбора использует присущую редкость в доступе к данным GPU: большинство токенов значительно связаны только с небольшим подмножеством предыдущих токенов.Решение резко уменьшает объем токен-векторов, которые должны быть отправлены обратно на GPU.

Второй алгоритм фокусируется на моделях повторного использования: недавние токены, семантически похожие токены,и структурные шаблоны, распространенные в RAG или многоразовых сценариях чата, часто повторно используются и соответствующим образом распределяются приоритеты.

LightInferra сначала извлекает эти токен-блоки из DRAM серверов x86, или из внешних SSD-накопителей ScaleFlux, если это необходимо, а затем загружает их в HBM GPU через ссылки RDMA.

Lightbits сравнил этот подход с перерасчетом кэшированного контента с нуля с использованием больших рабочих нагрузок языковой модели, измеряя улучшения в Time-to-First-Token (TTFT).Заявленные показатели ускорения от 100 до 280 раз получены непосредственно из этих результатов испытаний..

последние новости компании о Демонстрация Lightbits и ScaleFlux 100x до 280x КВ Ускорение кэша  0

Конечно, мы бы хотели увидеть результаты сравнения ускорения кэша Lightbits-ScaleFlux KV

Схема с КВ Кэша ускорителей от DDN, Hammerspace, VAST Data, WEKA и других, но они

не доступны.


Есть графики, показывающие, как LightInferra-ScaleFlux постепенно улучшается на регенерации кэша TTFT

по мере увеличения размера модели.


последние новости компании о Демонстрация Lightbits и ScaleFlux 100x до 280x КВ Ускорение кэша  1


Все соответствующие данные о эталонных показателях представлены в диаграммах логарифмической шкалы, предназначенных в первую очередь для специалистов в области информатики, но простой язык позволяет намного легче понять влияние в реальном мире:В результате достигается устойчивая производительность Time-to-First-Token (TTFT), поскольку контекст масштабируется от 100 000 токенов до 1 миллиона и выше..??
Как говорит Джонмайкл Хэндс из FarmGPU, когда разговор с 400 000 токенами возобновляется и системе приходится восстанавливать весь КВ кэш с нуля,Это означает две минуты работы графического процессора с нулевым количеством выпущенных токенов.LightInferra полностью меняет экономическую модель, одна и та же нагрузка генерирует свой первый токен менее чем за полсекунды, превращая нежизнеспособный уровень продукта в прибыльный.

Lightbits и ScaleFlux разработали это совместное решение специально для GPU-ферм нового поколения, где большие модули GPU запускают сотни или даже тысячи одновременных рабочих нагрузок модели ИИ.Почти каждая из этих рабочих нагрузок достигнет предела KV кэша в GPU's высокополосная память (HBM).

При традиционных установках команды сталкиваются с двумя дорогими вариантами: медленное получение токен-векторов из общих внешних хранилищ,или гораздо более трудоемкий процесс перерасчета этих векторов с нуля, оба из которых оставляют графические процессоры без работы в течение нескольких часов.Сочетание LightInferra и ScaleFlux полностью устраняет эту болевую точку.

Генеральный директор FarmGPU Джонмайкл Хэндс добавил: "Быстрое сетевое хранилище от Lightbits открывает множество новых вариантов использования для выводов с длинным контекстом.Сочетая наш управляемый сервис с высокопроизводительным хранилищем Lightbits, работающим на накопителях ScaleFlux NVMe, мы можем сократить время до первого токена и увеличить использование GPU, резко снизив общую стоимость владения (TCO) для нагрузок на вывод.

Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг, директор по глобальной стратегии
WhatsApp / WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Сайт:www.qianxingdata.com/www.storagesserver.com (включая хранилища)

Бизнес фокус:
Распространение ИКТ-продуктов/интеграция систем и услуги/решения инфраструктуры
Имея более 20-летний опыт распространения ИТ, мы сотрудничаем с ведущими мировыми брендами для предоставления надежных продуктов и профессиональных услуг.
Использование технологий для создания интеллектуального мира Ваш надежный поставщик услуг ИКТ-продуктов!
Время Pub : 2026-03-18 11:34:46 >> список новостей
Контактная информация
Beijing Qianxing Jietong Technology Co., Ltd.

Контактное лицо: Ms. Sandy Yang

Телефон: 13426366826

Оставьте вашу заявку (0 / 3000)