Компания Groq выпускает первый ускоритель ИИ с производительностью 1 PetaOPS

  • Размер шрифта: Больше Меньше
  • Печатать
  • PDF

Компания Groq – едва ли не сотый стартап, который пытается создать карту-ускоритель ИИ, но первый, у кого получилось повысить производительность до 1 квадриллиона операций в секунду. Это вчетверо превышает производительность самой мощной карты Nvidia. Возможно, залогом успеха решения стала его относительная простота.

Одноядерный процессор Groq Tensor Streaming Processor (TSP) требует мощности в 300 Вт. Конструкция TSP максимально проста. Techspot сравнил его с «гигантским куском кремния с почти ничем, кроме матрично-векторного процессора и кэша; никаких контроллеров и серверных модулей».

В составе TSP 20 «супершин». «Супершины» состоят из (слева направо): матричного блока (320 Mac), коммутатора, блока памяти (5,5 МБ), векторного блока (16 Alu), блока памяти (5,5 МБ), коммутатора, матричного блока (320 Mac). Как видите, структура зеркальна. Это делит «супершину» на две полусферы, которые могут работать почти независимо.

Поток команд (всегда только один) проходит через каждый компонент «супершины». На каждом такте блоки выполняют свои операции и перемещают часть данных далее по «супершине». Каждый компонент может отправлять и получать 512 байт от своих ближайших соседей.

По завершении всех операций, «супершина» передает информацию вниз, следующей «супершине» и получает информацию от «супершины» сверху. Инструкции всегда передаются вниз по вертикали между шинам, в то время как данные передаются только по горизонтали.

Получается процессор, который чрезвычайно хорош в обучении нейронной сети и выводе данных, и неспособен ни на что другое. Чтобы немного охарактеризовать его, поясним, что в ResNet-50 он может выполнять 20 400 выводов в секунду (I/S) при любом размере пакета, с задержкой вывода 0,05 МС. Для сравнения, Tesla V100 от Nvidia может выполнять 7907 операций ввода-вывода при размере пакета 128, или 1156 операций ввода-вывода при размере пакета 1 . Задержка вывода при пакете 128 составляет 16 мс и 0,87 мс при размере пакета 1. Очевидно, что TSP превосходит эквивалентную карту Nvidia.

То, что у TSP так много кэша первого уровня и нет никакого другого, это не только его достоинство, но и недостаток. Если нейронная сеть расширяется за пределы этого объема или если она имеет дело с очень большими входными данными, она серьезно затормозит. Карты Nvidia же имеют гигабайты памяти, которые могут справиться с этим сценарием.

Подводя итог, можно сказать, что TSP потрясающе производителен в своей сфере. фактически он не способен больше ни на что, кроме как выполнять определённые задачи, связанные с глубоким обучением и выводом нейронных сетей. TSP определенно имеет будущее в таких областях, как беспилотные автомобили, где объем ввода предсказуем, и нейронная сеть гарантированно может приспособиться.

В настоящее время TSP доступен клиентам как один из вариантов ускорителя ИИ в облаке Nimbix.

Источник:Techspot

в разделе: В мире Просмотров: 139