
Графические процессоры Intel Gaudi 3 для искусственного интеллекта
OLEKSANDR SYZOVДелиться
Графические процессоры Intel Gaudi 3 для искусственного интеллекта
Intel Gaudi 3 — это новейшее поколение ускорителей ИИ от Intel, специально разработанное для обработки требовательных рабочих нагрузок генеративного ИИ и больших языковых моделей (LLM) как для обучения, так и для вывода. Intel стремится предложить конкурентоспособную альтернативу доминирующим графическим процессорам NVIDIA на рынке ИИ, делая упор на открытые стандарты и экономическую эффективность.
Intel Gaudi 3 доступен в двух основных форм-факторах:
- HL-325L (модуль ускорителя OCP — мезонинная плата OAM): это высокопроизводительная и мощная версия, предназначенная для плотных конфигураций серверов.
- HL-338 (карта расширения PCIe): это более стандартный форм-фактор PCIe для более широкой совместимости с серверами.
Ниже приведены основные технические характеристики Intel Gaudi 3, объединяющие спецификации для обоих форм-факторов, где это применимо:
Общая архитектура и основные характеристики:
- Производственный процесс: построен на 5-нм техпроцессе TSMC.
- Вычислительные машины:
- Двигатели умножения матриц (MME): 8 единиц. Это специализированные ядра для эффективных матричных операций, критически важных для глубокого обучения.
- Ядра тензорных процессоров (TPC): 64 единицы. Это программируемые векторные процессоры, предназначенные для глубокого обучения и рабочих нагрузок вывода.
- Встроенная SRAM: 96 МБ с пропускной способностью 12,8 ТБ/с, обеспечивающая быструю локальную память для ядер.
- Медиа-движки: 14 декодеров, 4 ротатора, что указывает на возможности обработки различных медиа-форматов для приложений ИИ.
- Интерфейс хоста: PCIe Gen 5.0 x16, обеспечивающий высокую пропускную способность (128 ГБ/с в обоих направлениях) для связи с центральным процессором.
Подсистема памяти:
- HBM (память с высокой пропускной способностью): 128 ГБ памяти HBM2e.
- Пропускная способность HBM: 3,7 ТБ/с, что обеспечивает чрезвычайно высокую пропускную способность данных для моделей ИИ с интенсивным использованием памяти. Контроллер HBM оптимизирован как для случайных, так и для линейных шаблонов доступа.
Сетевое взаимодействие и масштабируемость:
- Встроенный Ethernet: 24 интегрированных порта RoCE (RDMA over Converged Ethernet) на 200 Гбит/с. Это существенное отличие, способствующее созданию открытой и гибкой Ethernet-структуры для масштабируемого (в пределах сервера) и масштабируемого (на нескольких серверах) подключения.
- Общая двунаправленная пропускная способность сети: 1200 ГБ/с. Это обеспечивает огромную пропускную способность связи между ускорителями внутри и между узлами, что имеет решающее значение для крупномасштабного распределенного обучения ИИ.
- Открытый стандарт: Intel делает акцент на использовании отраслевого стандарта Ethernet, который призван снизить зависимость от поставщика и упростить интеграцию по сравнению с фирменными соединениями.
Показатели производительности (по сравнению с Gaudi 2 и часто H100):
- Вычисления ИИ (FP8): 1835 TFLOPS (терафлопс).
- Вычисления ИИ (BF16): 1835 TFLOPS (терафлопс).
- BF16 Vector TFLOP: 28,7.
- Улучшение поколений: Intel заявляет о двукратном увеличении вычислений ИИ (FP8), четырехкратном увеличении вычислений ИИ (BF16), двукратном увеличении пропускной способности сети и в 1,5 раза увеличении пропускной способности памяти по сравнению с Gaudi 2.
- Время обучения: Intel утверждает, что Gaudi 3 может быть в среднем в 1,5 раза быстрее по времени обучения, чем NVIDIA H100 для некоторых моделей.
Характеристики мощности и форм-фактора:
- HL-325L (ОАМ):
- Тепловой пакет: 900 Вт.
- Форм-фактор: Совместимость с OCP Accelerator Module V2.0. Они предназначены для интеграции в специализированные базовые платы, часто группами по восемь на серверный узел (например, в интегрированной подсистеме мощностью 7,6 кВт).
- HL-338 (карта PCIe):
- Тепловой пакет: 600 Вт.
- Форм-фактор: полноразмерная, двухширокая, 10,5-дюймовая PCIe-карта. Это позволяет устанавливать ее на более широком спектре серверов, поддерживающих двухширокие PCIe-карты.
Предполагаемые области применения:
Intel Gaudi 3 разработан для самых ресурсоемких рабочих нагрузок ИИ, включая:
- Обучение и вывод большой языковой модели (LLM): большой объем памяти, пропускная способность и вычислительная мощность делают его идеальным для удовлетворения огромных вычислительных и оперативных потребностей LLM.
- Генеративный ИИ: поддержка мультимодальных приложений генеративного ИИ, включая преобразование текста в изображение, преобразование текста в видео и другие задачи по созданию контента.
- Высокопроизводительные вычисления (HPC): ускорение сложных научных расчетов и анализа данных с использованием параллельной обработки.
- Корпоративный ИИ: предоставление масштабируемого и эффективного решения для различных вариантов использования корпоративного ИИ.
Стратегия Intel в отношении Gaudi 3 заключается в том, чтобы предложить убедительную альтернативу на рынке аппаратного обеспечения для искусственного интеллекта, уделяя особое внимание производительности, открытой разработке программного обеспечения и экономической эффективности за счет использования Ethernet для масштабирования.
Получите доступ к официальным серверам DELL PowerEdge R760 в Украине.
Безкоштовная консультация по телефону +38 (067) 819 38 38
Доступные модели серверов на складе в Киеве:
Сервер Dell PowerEdge R760 - Intel Xeon Silver 4510 2.4-4.1Ghz 12 ядер
Сервер Dell PowerEdge R760 - Intel Xeon Silver 4514Y 2.0-3.4Ghz 16 Cores
Сервер Dell PowerEdge R760 — Intel Xeon Gold 6526Y 2,8–3,9 ГГц, 16 ядер
Сервер Dell PowerEdge R760 — Intel Xeon Gold 5420+ 2,0–4,1 ГГц, 28 ядер