На Google Cloud Next компания Google представила свои ускорители искусственного интеллекта восьмого поколения: TPU v8t «Sunfish» для обучения и TPU v8i «Zebrafish» для вывода, а также новую структуру центра обработки данных Virgo. Созданные для эпохи агентного искусственного интеллекта, эти чипы оптимизированы для обучения модели большого количества экспертов (MoE) и обслуживания токенов с малой задержкой и экономически эффективной ценой. Несмотря на то, что v8t и v8i используют одну и ту же хост-платформу и структуру межсоединений, они различаются памятью, SRAM, топологией и специализацией оборудования.
Суперпод v8t поддерживает 9600 чипов с 2 ПБ HBM и обеспечивает производительность вычислений FP4 121 EFLOPS, что почти в три раза превышает производительность предыдущего поколения Ironwood. v8i масштабируется до 1152 чипов с 288 ГБ HBM и 384 МБ встроенной SRAM, обеспечивая на 80% лучшую экономическую эффективность вывода, чем у Ironwood. Фабрика Virgo объединяет более 134 000 чипов v8t, обеспечивая неблокируемую пропускную способность 47 Пбит/с, в 4 раза более высокую пропускную способность на каждый ускоритель и меньшую задержку на 40 %.
Фундаментальная архитектура TPU против графического процессора
TPU — это специальные ASIC, характеризующиеся большими матричными умножителями (MXU), SRAM с программным управлением и опережающей компиляцией. В отличие от динамического планирования малых ядер графического процессора, TPU обеспечивают детерминированный поток данных с систолическими массивами, устраняя дрожание кэша и накладные расходы на планирование деформации для более высокого использования FLOPS при рабочих нагрузках с плотной матрицей. Однако TPU борются с динамическими формами, неравномерной разреженностью и сложными графовыми сетями, а также предлагают более узкую поддержку экосистемы программного обеспечения, в которой доминируют JAX и XLA.
Структурная разница в поддержке разреженности четко различает TPU и GPU. Тензорные ядра NVIDIA изначально поддерживают структурированную разреженность 2:4 посредством сжатия на уровне инструкций. Напротив, систолические массивы TPU работают в жестком синхронном режиме, что делает пропуск нуля неэффективным без остановок конвейера или дополнительного оборудования для декомпрессии. AWS Trainium2 использует золотую середину с выделенными разреженными декомпрессорами для сохранения пропускной способности массива.
TPU интегрируют SparseCores для решения задач нерегулярного сбора и разброса данных для внедрения таблиц и маршрутизации MoE. Эти специализированные ядра превосходно справляются с сортировкой, перестановкой и переупорядочением данных, охватывая рабочие нагрузки рекомендаций и экспертную отправку токенов, которые стандартные MXU не могут эффективно обрабатывать.
ТПУ v8t «Санфиш»: обучающий акселератор
Учебный чип v8t оснащен 216 ГБ памяти HBM3e и 128 МБ SRAM. Встроенная точность FP4 удваивает пропускную способность за цикл, увеличивая производительность однокристальных вычислений до 12,6 PFLOPS. Он сохраняет трехмерное торическое соединение и улучшенную полосу пропускания ICI 19,2 Тбит/с, что идеально подходит для коллективной кольцевой связи при крупномасштабном обучении.
Унаследованные SparseCores оптимизируют нерегулярную сквозную передачу данных MoE. Два важных обновления устраняют крупномасштабные узкие места: TPUDirect RDMA и TPUDirect Storage обходят центральный процессор и обеспечивают прямой доступ к памяти TPU, обеспечивая в 10 раз более высокую пропускную способность ввода-вывода. Кроме того, v8t использует процессоры Google Axion на базе Arm в качестве хост-процессоров, изолируя дрожание хоста и повышая стабильность предварительной обработки для синхронизированного многочипового обучения.
ТПУ v8i «Данио»: ускоритель вывода
Созданный для рабочих нагрузок вывода, связанных с пропускной способностью памяти, v8i отдает приоритет генерации токенов с малой задержкой. Он имеет 384 МБ SRAM — в три раза больше, чем у Ironwood — для кэширования KV-кэша на кристалле и уменьшения повторного чтения HBM. Благодаря двум ядрам TensorCores и HBM3e объемом 288 ГБ он обеспечивает производительность вычислений FP4 10,1 PFLOPS, перекрывая задачи вывода коротких пакетов для более устойчивого использования.
Заменяя SparseCores, специальный механизм коллективного ускорения (CAE) сокращает задержку синхронизации на кристалле до 5 раз, оптимизируя частые коллективные операции небольшими пакетами. V8i отказывается от 3D-тора в пользу топологии Boardfly на основе Dragonfly, уменьшая максимальное количество переходов между чипами с 16 до 7 и снижая задержку MoE «все-все» на 50%.
Иерархия тканей Девы и Юпитера
Virgo служит структурой масштабирования внутри центра обработки данных, применяя двухуровневую неблокирующую архитектуру для устранения переподписки на трафик ИИ с востока на запад. Оснащенный оптическими переключателями MEMS, он обеспечивает перенаправление неисправностей на уровне миллисекунд и поддерживает 97% производительности для суперподов v8t. В сочетании с Jupiter — фабрикой между центрами обработки данных Google на большие расстояния — многоуровневая система межсоединений поддерживает более миллиона микросхем TPU в одном логическом кластере с общей производительностью вычислений FP4 1,7 ZFLOPS.
Производительность, совокупная стоимость владения и положение на рынке
Высокая производительность и стабильное использование моделей FLOP (MFU) предоставляют TPU убедительные преимущества в затратах. При 40 % MFU затраты на обучение TPU на 62 % ниже, чем у NVIDIA GB300. При сравнении аппаратного обеспечения производительность v8t плотного FP4 находится между GB200 и GB300, в то время как Google доминирует в крупномасштабной кластеризации с одним модулем на 9600 чипов, что намного превышает домен NVIDIA NVLink с 72 графическими процессорами.
Заглядывая в будущее, можно сказать, что Vera Rubin, Rubin Ultra и Kyber от NVIDIA сократят разрыв в производительности TPU с 2026 по 2027 год. К недостаткам TPU относятся меньший HBM на кристалл, отсутствие аппаратного обеспечения и ограниченная совместимость экосистемы. Тем не менее, Google сохраняет сильные стороны в области массивной кластеризации, детерминированной задержки и экономической эффективности для рабочих нагрузок Министерства образования.
Google расширяет инфраструктуру как TPU, так и NVIDIA GPU. Meta планирует заключить многомиллиардную сделку по внедрению TPU, начиная с 2027 года. Являясь двухчиповым поколением, оптимизированным для агентной эпохи, TPU v8 обеспечивает конкурентоспособность Google по сравнению с NVIDIA Grace-Blackwell для передового крупномасштабного развертывания искусственного интеллекта.
Пекинская компания Qianxing Jietong Technology Co., Ltd.
Сэнди Янг/Директор по глобальной стратегии
WhatsApp/WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Веб-сайт: www.qianxingdata.com/www.storagesserver.com.
Бизнес-направление:
Распространение продуктов ИКТ/Системная интеграция и услуги/Инфраструктурные решения
Имея более чем 20-летний опыт распространения ИТ-технологий, мы сотрудничаем с ведущими мировыми брендами, предоставляя надежные продукты и профессиональные услуги.
«Использование технологий для построения интеллектуального мира»Ваш надежный поставщик услуг в сфере ИКТ!
Сэнди Янг/Директор по глобальной стратегии
WhatsApp/WeChat: +86 13426366826
Электронная почта: yangyd@qianxingdata.com
Веб-сайт: www.qianxingdata.com/www.storagesserver.com.
Бизнес-направление:
Распространение продуктов ИКТ/Системная интеграция и услуги/Инфраструктурные решения
Имея более чем 20-летний опыт распространения ИТ-технологий, мы сотрудничаем с ведущими мировыми брендами, предоставляя надежные продукты и профессиональные услуги.
«Использование технологий для построения интеллектуального мира»Ваш надежный поставщик услуг в сфере ИКТ!



