GPUs Intel Gaudi 3 for Artificial Intelligence

Графические процессоры Intel Gaudi 3 для искусственного интеллекта

OLEKSANDR SYZOV

Графические процессоры Intel Gaudi 3 для искусственного интеллекта

Intel Gaudi 3 — это новейшее поколение ускорителей ИИ от Intel, специально разработанное для обработки требовательных рабочих нагрузок генеративного ИИ и больших языковых моделей (LLM) как для обучения, так и для вывода. Intel стремится предложить конкурентоспособную альтернативу доминирующим графическим процессорам NVIDIA на рынке ИИ, делая упор на открытые стандарты и экономическую эффективность.

Intel Gaudi 3 доступен в двух основных форм-факторах:

  1. HL-325L (модуль ускорителя OCP — мезонинная плата OAM): это высокопроизводительная и мощная версия, предназначенная для плотных конфигураций серверов.
  2. HL-338 (карта расширения PCIe): это более стандартный форм-фактор PCIe для более широкой совместимости с серверами.

Ниже приведены основные технические характеристики Intel Gaudi 3, объединяющие спецификации для обоих форм-факторов, где это применимо:

Общая архитектура и основные характеристики:

  • Производственный процесс: построен на 5-нм техпроцессе TSMC.
  • Вычислительные машины:
    • Двигатели умножения матриц (MME): 8 единиц. Это специализированные ядра для эффективных матричных операций, критически важных для глубокого обучения.
    • Ядра тензорных процессоров (TPC): 64 единицы. Это программируемые векторные процессоры, предназначенные для глубокого обучения и рабочих нагрузок вывода.
  • Встроенная SRAM: 96 МБ с пропускной способностью 12,8 ТБ/с, обеспечивающая быструю локальную память для ядер.
  • Медиа-движки: 14 декодеров, 4 ротатора, что указывает на возможности обработки различных медиа-форматов для приложений ИИ.
  • Интерфейс хоста: PCIe Gen 5.0 x16, обеспечивающий высокую пропускную способность (128 ГБ/с в обоих направлениях) для связи с центральным процессором.

Подсистема памяти:

  • HBM (память с высокой пропускной способностью): 128 ГБ памяти HBM2e.
  • Пропускная способность HBM: 3,7 ТБ/с, что обеспечивает чрезвычайно высокую пропускную способность данных для моделей ИИ с интенсивным использованием памяти. Контроллер HBM оптимизирован как для случайных, так и для линейных шаблонов доступа.

Сетевое взаимодействие и масштабируемость:

  • Встроенный Ethernet: 24 интегрированных порта RoCE (RDMA over Converged Ethernet) на 200 Гбит/с. Это существенное отличие, способствующее созданию открытой и гибкой Ethernet-структуры для масштабируемого (в пределах сервера) и масштабируемого (на нескольких серверах) подключения.
  • Общая двунаправленная пропускная способность сети: 1200 ГБ/с. Это обеспечивает огромную пропускную способность связи между ускорителями внутри и между узлами, что имеет решающее значение для крупномасштабного распределенного обучения ИИ.
  • Открытый стандарт: Intel делает акцент на использовании отраслевого стандарта Ethernet, который призван снизить зависимость от поставщика и упростить интеграцию по сравнению с фирменными соединениями.

Показатели производительности (по сравнению с Gaudi 2 и часто H100):

  • Вычисления ИИ (FP8): 1835 TFLOPS (терафлопс).
  • Вычисления ИИ (BF16): 1835 TFLOPS (терафлопс).
  • BF16 Vector TFLOP: 28,7.
  • Улучшение поколений: Intel заявляет о двукратном увеличении вычислений ИИ (FP8), четырехкратном увеличении вычислений ИИ (BF16), двукратном увеличении пропускной способности сети и в 1,5 раза увеличении пропускной способности памяти по сравнению с Gaudi 2.
  • Время обучения: Intel утверждает, что Gaudi 3 может быть в среднем в 1,5 раза быстрее по времени обучения, чем NVIDIA H100 для некоторых моделей.

Характеристики мощности и форм-фактора:

  • HL-325L (ОАМ):
    • Тепловой пакет: 900 Вт.
    • Форм-фактор: Совместимость с OCP Accelerator Module V2.0. Они предназначены для интеграции в специализированные базовые платы, часто группами по восемь на серверный узел (например, в интегрированной подсистеме мощностью 7,6 кВт).
  • HL-338 (карта PCIe):
    • Тепловой пакет: 600 Вт.
    • Форм-фактор: полноразмерная, двухширокая, 10,5-дюймовая PCIe-карта. Это позволяет устанавливать ее на более широком спектре серверов, поддерживающих двухширокие PCIe-карты.

Предполагаемые области применения:

Intel Gaudi 3 разработан для самых ресурсоемких рабочих нагрузок ИИ, включая:

  • Обучение и вывод большой языковой модели (LLM): большой объем памяти, пропускная способность и вычислительная мощность делают его идеальным для удовлетворения огромных вычислительных и оперативных потребностей LLM.
  • Генеративный ИИ: поддержка мультимодальных приложений генеративного ИИ, включая преобразование текста в изображение, преобразование текста в видео и другие задачи по созданию контента.
  • Высокопроизводительные вычисления (HPC): ускорение сложных научных расчетов и анализа данных с использованием параллельной обработки.
  • Корпоративный ИИ: предоставление масштабируемого и эффективного решения для различных вариантов использования корпоративного ИИ.

Стратегия Intel в отношении Gaudi 3 заключается в том, чтобы предложить убедительную альтернативу на рынке аппаратного обеспечения для искусственного интеллекта, уделяя особое внимание производительности, открытой разработке программного обеспечения и экономической эффективности за счет использования Ethernet для масштабирования.

 

Получите доступ к официальным серверам DELL PowerEdge R760 в Украине.

Безкоштовная консультация по телефону +38 (067) 819 38 38

Доступные модели серверов на складе в Киеве:

Сервер Dell PowerEdge R760 - Intel Xeon Silver 4510 2.4-4.1Ghz 12 ядер

Сервер Dell PowerEdge R760 - Intel Xeon Silver 4514Y 2.0-3.4Ghz 16 Cores

Сервер Dell PowerEdge R760 — Intel Xeon Gold 6526Y 2,8–3,9 ГГц, 16 ядер

Сервер Dell PowerEdge R760 — Intel Xeon Gold 5420+ 2,0–4,1 ГГц, 28 ядер

Вернуться к блогу