IBM представила архитектуру контент-аварийного хранения (CAS), которая встраивает обработку данных ИИ непосредственно в слой хранения.This approach is tailored for retrieval-augmented generation (RAG) workflows. Этот подход разработан для восстановления рабочего процесса., поскольку он интегрирует векторизацию документов в саму систему хранения, сокращая потребность во внешних трубопроводах для предварительной обработки.
CAS переносит ключевую функцию RAG ‒ документальное встраивание ‒ через методы, основанные на большой языковой модели (LLM) в инфраструктуру хранения.Это позволяет предприятиям обрабатывать и индексировать данные в своем существующем месте., выстраивая системы хранения с рабочей нагрузкой, управляемой ИИ, и минимизируя перемещение данных через различные уровни инфраструктуры.IBM позиционирует это как средство для упрощения развертывания, одновременно повышая производительность и улучшая локальность данных для приложений ИИ..
Векторальная база данных в масштабе
At the heart of IBM's CAS implementation lies a vector database optimized for semantic search. Векторные базы данных поддерживают приблизительный поиск ближайшего соседа (ANN),enabling AI systems to retrieve relevant data chunks based on similarity metrics like cosine similarity or L2 distance. позволяет системам искусственного интеллекта извлекать соответствующие фрагменты данных на основе показателей сходства, таких как косинус сходство или L2 расстояние.Эта способность является основополагающей для RAG, где запросы пользователей преобразуются в векторы и сопоставляются с индексированными корпоративными данными, чтобы предоставить ответы, ориентированные на контекст.
IBM CAS ChartИсточник: IBM
IBM Research в сотрудничестве с Samsung и NVIDIA продемонстрировали прототип системы, способной масштабировать до 100 миллиардов векторов на одном сервере.Система достигла более 90% точности и точности.Этот масштаб обслуживает корпоративные среды, где наборы данных могут охватывать миллиарды файлов и, как только они полностью проиндексированы, они могут использоваться для поиска данных.вырасти до сотен миллиардов векторов..
RAG Pipeline Integration (Интеграция трубопроводов RAG)
RAG становится предпочтительным подходом для корпоративного ИИ, поскольку он повышает точность вывода без необходимости переподготовки модели.Это работает, дополняя запросы с корпоративными данными, полученными из векторной базы данных..
The pipeline starts with data ingestion, where documents such as PDFs and presentations are parsed, split into chunks, and converted into embeddings. The pipeline starts with data ingestion, where documents such as PDFs and presentations are parsed, split into chunks, and converted into embeddings. The pipeline starts with data ingestion, where documents such as PDFs and presentations are parsed, split into chunks, and converted into embeddings. The pipeline starts with data ingestion, where documents such as PDFs and presentations are parsed, split into chunks, and converted into embeddings.Эти вставки хранятся в векторной базе данных, которая организует данные для эффективного поиска сходства.Во время запроса, пользовательский ввод встраивается и сопоставляется с сохраненными векторами, с соответствующим контентом, переданным в языковую модель в качестве контекста.Этот механизм заземления уменьшает галлюцинации и увеличивает доверие к выводам, генерируемым искусственным интеллектом..
IBM CAS интегрирует весь этот трубопровод непосредственно в хранилище, консолидируя поглощение, индексирование и извлечение в непосредственной близости от данных.
Addressing Scale and Cost Challenges (Обращение к масштабам и затратам)
Когда расширяется до CAS, каждый файл может генерировать сотни векторов, быстро расширяя размер набора данных.Традиционные векторные базы данных обычно масштабируются на нескольких серверах.Индексирование и реиндексирование больших наборов данных также становятся трудоемкими задачами.
IBM®s подход фокусируется на улучшении плотности векторов и снижении перегрузки индексации для ограничения расширения инфраструктуры.enabling independent scaling of storage and compute resources (обеспечение независимого масштабирования ресурсов хранения и вычисления)Это стало возможным благодаря IBM Storage Scale и его высокопроизводительной параллельной файловой системе.
Storage and Hardware Architecture (Спасительная и аппаратная архитектура)
The CAS implementation leverages the IBM Storage Scale System 6000 (ESS 6000), an all-flash platform designed for AI and high-performance workloads. The CAS implementation leverages the IBM Storage Scale System 6000 (ESS 6000), an all-flash platform designed for AI and high-performance workloads. The CAS implementation leverages the IBM Storage Scale System 6000 (ESS 6000), an all-flash platform designed for AI and high-performance workloads. The CAS implementation leverages the IBM Storage Scale System 6000 (ESS 6000), an all-flash platform designed for AI and high-performance workloads.Система поддерживает до 48 NVMe дисков на 4U корпус.Он интегрирует PCIe Gen5, 400 Gb InfiniBand, или 200 Gb Ethernet подключение.delivering up to 340 ГБ/с read and 175 ГБ/с write throughput per node - доставка до 340 ГБ/с прочтения и 175 ГБ/с записи через узел, вместе с до 7 миллионов IOPS.
The platform also supports NVIDIA GPUDirect Storage, facilitating direct data paths between storage and GPUs, as well as BlueField-3 DPUs to offload network and data processing tasks. The platform also supports NVIDIA GPUDirect Storage, facilitating direct data paths between storage and GPUs, as well as BlueField-3 DPUs to offload network and data processing tasks.
Samsung PM9D3a PCIe Gen5 NVMe SSDs provide high-throughput, high-density storage. Based on eighth-generation TLC V-NAND, these drives offer up to 30.72 TB per device. Based on eighth-generation TLC V-NAND, these drives offer up to 30.72 TB per device. Based on eighth-generation TLC V-NAND, these drives offer up to 30.72 TB per device.с последовательной скоростью чтения до 12 ГБ/с и скоростью записи до 6.8 ГБ/с. Использование коммерчески доступных корпоративных SSD позволяет архитектуре масштабировать с использованием стандартных компонентов.
Иерархическое индексирование и ускорение GPU
Чтобы справиться с индексацией в масштабе, IBM разработала иерархическую модель индексации, состоящую из нескольких под-индексов, которые можно оптимизировать независимо.Эта структура позволяет инкрементальные обновления и локализованное переиндексирование без нарушения всего набора данных., улучшая как доступность, так и операционную эффективность.
Задачи, которые занимали бы часы на процессорах, могут быть завершены за несколько минут с помощью GPU NVIDIA.Building indexes for 100 billion vectors took 4 days with 6 NVIDIA H200 GPUs. Строительство индексов для 100 миллиардов векторов заняло 4 дня с 6 NVIDIA H200 GPUs., по сравнению с приблизительно 120 днями на двойной системе процессора.
Полный набор данных, включая векторы и индексы, потреблял примерно 153 ТиБ хранилища.Результативная система предоставила среднюю задержку запроса 694 мс с 90% отзывом., подтвержденные против грубо-сильных расчетов.
Дорожная карта
IBM и NVIDIA продолжают оптимизировать платформу, фокусируясь на снижении индексации и задержки запросов.сокращение времени приема данных с девяти дней до одного дня, и снижение задержки запроса до диапазона 50-100 миллисекунд, сохраняя 90 процентов запоминания.
Integrating vector indexing into standard file systems aims to simplify deployment and lower barriers to enterprise AI adoption. By embedding RAG capabilities directly into storage, RAG может использоваться для интеграции вектора индексации в стандартные файловые системы, чтобы упростить развертывание и снизить барьеры для принятия корпоративного ИИ.IBM позиционирует CAS как основополагающий слой для инфраструктуры с использованием ИИ..
Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг, директор по глобальной стратегии
WhatsApp / WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Сайт: www.qianxingdata.com/www.storagesserver.com
Бизнес фокус:
Распространение ИКТ-продуктов/интеграция систем и услуги/решения инфраструктуры
Имея более 20-летний опыт распространения ИТ, мы сотрудничаем с ведущими мировыми брендами для предоставления надежных продуктов и профессиональных услуг.
Использование технологий для создания интеллектуального мира Ваш надежный поставщик услуг ИКТ-продуктов!
Сэнди Янг, директор по глобальной стратегии
WhatsApp / WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Сайт: www.qianxingdata.com/www.storagesserver.com
Бизнес фокус:
Распространение ИКТ-продуктов/интеграция систем и услуги/решения инфраструктуры
Имея более 20-летний опыт распространения ИТ, мы сотрудничаем с ведущими мировыми брендами для предоставления надежных продуктов и профессиональных услуг.
Использование технологий для создания интеллектуального мира Ваш надежный поставщик услуг ИКТ-продуктов!



