Программное обеспечение WEKA NeuralMesh и Augmented Memory Grid, работающее на Oracle Cloud Infrastructure (OCI), обеспечивает в 10 раз более высокую пропускную способность токенов, в 10 раз больше одновременных пользователей и в 7 раз больше токенов на каждый графический процессор по сравнению со стандартными средами OCI, использующими исключительно локальную DRAM.

Расширенная сетка памяти WEKA расширяет память сервера графического процессора для вывода ИИ за счет использования внешнего хранилища через NeuralMesh, превращая внешние ресурсы в высокопроизводительный KV-кэш. Он обеспечивает задержку в микросекунды и пропускную способность в несколько ГБ/с, предлагая до петабайт дополнительного адресного пространства памяти и полную совместимость с архитектурой кэширования NVIDIA SX KV. NeuralMesh — это высокопроизводительная файловая система искусственного интеллекта WEKA. Все тесты были проверены на 9-узловом кластере OCI H100 без операционной системы с контекстными окнами на 100 000 токенов.
Пабло Салем, старший директор по разработке программного обеспечения в OCI, прокомментировал: "Рабочие нагрузки корпоративного искусственного интеллекта продолжают расширять контекстные окна и поднимать использование графического процессора до новых пределов. Эти тесты доказывают, что решение WEKA устраняет узкие места памяти графического процессора в OCI, позволяя выполнять более масштабные и требовательные рабочие нагрузки без дополнительных инвестиций в оборудование графического процессора".
WEKA отмечает, что растущий спрос на логические выводы усиливает неэффективность инфраструктуры искусственного интеллекта. Частые вытеснения кэша KV создают скрытые накладные расходы, которые тратят впустую циклы графического процессора, увеличивают задержку, ухудшают качество обслуживания пользователей и повышают эксплуатационные расходы на каждый токен. Для долгоконтекстных и агентных рабочих нагрузок ИИ с входными данными более 100 000 токенов такие накладные расходы серьезно наносят ущерб юнит-экономике производственных развертываний ИИ.
Тест был построен на 9 узлах, 72 графических процессорах H100, контекстных окнах на 100 000 токенов и тысячах одновременных пользователей, с явными пробелами в производительности, показанными ниже:
-
Количество одновременных пользователей: WEKA поддерживала более 5000 одновременных пользователей по сравнению с 600 в конфигурациях только с DRAM. Он предотвращает сбои насыщения кэша за счет расширения активного кэша с 8,64 ТиБ DRAM до 287 ТиБ флэш-памяти NVMe, что максимизирует окупаемость инвестиций в существующее оборудование графического процессора без необходимости приобретения дополнительных графических процессоров.
-
Пропускная способность токена: Стек WEKA обрабатывает около 2 миллионов токенов в секунду, что в 10 раз быстрее, чем базовый уровень менее 200 000 токенов в секунду для систем, использующих только DRAM.
-
Общий объем обработки токенов: В ходе часового теста с 2400 одновременными пользователями WEKA обработала 5 миллиардов токенов, в то время как установка только с DRAM обработала только 700 миллионов токенов.
В рабочих процессах агентного ИИ недостаток DRAM вызывает постоянные перерасчеты графического процессора после насыщения кэша, что приводит к увеличению затрат на каждый токен и снижению рентабельности инвестиций. Обрабатывая 7 токенов на каждый графический процессор, WEKA значительно сокращает общие затраты на токены для производственных услуг искусственного интеллекта.
Для сервисов искусственного интеллекта в реальном времени, включая поиск, обобщение, поддержку кода и многооборотные агенты, пропускная способность токена определяет пределы обслуживания для емкости пользователя, скорости ответа и потенциального дохода от инфраструктуры. Увеличение пропускной способности в 10 раз полностью раскрывает вычислительную мощность графического процессора в кластере OCI.
Короче говоря, программное обеспечение WEKA для расширения памяти помогает облачным платформам обслуживать больше пользователей, обрабатывать больше токенов и эффективно сокращать эксплуатационные расходы.
Лиран Звибель, генеральный директор WEKA, сказал: "Производительность вывода ограничена доступной эффективной памятью графического процессора. Эти результаты доказывают, что одни только обновления оборудования не могут решить экономические проблемы токенов искусственного интеллекта. Реальным ограничением является давняя стена памяти, ограничивающая производительность графического процессора. Решение WEKA для OCI резко повышает производительность обработки токенов при оптимизации общей стоимости владения".
OCI опубликовала полную методологию тестирования, конфигурации системы и полные результаты испытаний в своем официальном блоге AI & Data Science.
NeuralMesh с расширенной сеткой памяти теперь общедоступна для клиентов WEKA и размещена на Oracle Marketplace, а OCI выступает в качестве ее эксклюзивного партнера по запуску облака. Предприятия, использующие длинный контекстный вывод на OCI, могут сразу же развернуть эту готовую к использованию полностью проверенную архитектуру.
Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг/Директор по глобальной стратегии
WhatsApp/WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Веб-сайт: www.qianxingdata.com/www.storagesserver.com.
Бизнес-направление:
Распространение продуктов ИКТ/Системная интеграция и услуги/Инфраструктурные решения
Имея более чем 20-летний опыт распространения ИТ-технологий, мы сотрудничаем с ведущими мировыми брендами, предоставляя надежные продукты и профессиональные услуги.
«Использование технологий для построения интеллектуального мира»Ваш надежный поставщик услуг в сфере ИКТ!