logo

Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021

Shanghai Neardi Technology Co., Ltd. Профиль компании
Новости
Домой > Новости >
Новости о компании Углубленный анализ узкого места 6TOPS RK3588 и правда о вычислительной мощности NPU

Углубленный анализ узкого места 6TOPS RK3588 и правда о вычислительной мощности NPU

2025-12-15
Latest company news about Углубленный анализ узкого места 6TOPS RK3588 и правда о вычислительной мощности NPU

Представьте, что вы работаете над проектом AI с RK3588: видеокамера должна выполнять распознавание лиц и обнаружение автомобилей в режиме реального времени, а также поддерживать отображение пользовательского интерфейса, загрузку данных,и бизнес-логической обработкиВы заметите: падение кадров происходит, когда в кадре много объектов, большие модели не работают гладко, а температура резко повышается.

На этом этапе люди обычно говорят: "Ваша модель слишком большая" 6TOPS RK3588 недостаточно".

Но действительно ли это недостаток вычислительной мощности? Вы когда-нибудь задумывались: почему 6TOPS NPU все еще испытывает падения кадров и задержку при запуске модели 4TOPS?Ответ лежит в трех измерениях вычислительной мощности НПУ:Пиковые показатели (TOPS),Точность (INT8/FP16), иЭффективность (ширина полосы).

Вы увидите, что различные чипы подчеркивают свои спецификации NPU, с основным параметром, выделенным на видном месте: NPU вычислительная мощность: X TOPS.RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, и так далее...

Что такое TOPS? Почему все об этом говорят?

Тера: представляет собой 1012.

Операции в секунду: относится к общему количеству операций ИИ, которые может выполнить НПУ за одну секунду.

Как рассчитывается TOPS?

последние новости компании о Углубленный анализ узкого места 6TOPS RK3588 и правда о вычислительной мощности NPU  0

Общее количество MAC-единиц является ядром вычислений нейронных сетей.Основные вычисления включают умножение входных данных на веса, а затем суммирование результатов.

Философия проектирования НПУ заключается в наличии чрезвычайно большого массива параллельных MAC-единиц.которые могут работать одновременно для достижения масштабного параллельного вычисления.

Чем больше единиц MAC, тем больше объемов вычислений, которые НПУ может выполнить за один часовой цикл.

Частота работы часов: Определяет количество циклов работы чипа NPU и его блоков MAC в секунду (измеряется в герцах, Гц).Более высокая частота позволяет массиву MAC выполнять больше операций умножения и накопления в единицу времениКогда производители объявляют о TOPS, они используют пиковую частоту работы НПУ (т.е. максимально достижимую частоту).

Операции по MAC: Полная операция MAC на самом деле включает в себя одно умножение и одно сложение.многие вычислительные стандарты считают одну операцию MAC как две основные операции (1 для умножения и 1 для сложения).

Фактор точности: Устройства MAC НПУ оптимизированы для обработки данных низкой точности (например, INT8).

Упрощенное соотношение ускорения INT8 vs FP32: поскольку 32 бита / 8 битов = 4, один блок FP32 теоретически может выполнять в 4 раза больше операций в один цикл при переключении на вычисления INT8.,Если TOPS производителя рассчитывается на основе INT8, то он должен быть умножен на коэффициент ускорения, связанный с точностью.

TOPS измеряет максимальную теоретическую вычислительную мощность.фактическая эффективная вычислительная мощность НПУ часто ниже этого пикового значения.

Вычислительная мощь - это скорость; точность - это "тонкость".

последние новости компании о Углубленный анализ узкого места 6TOPS RK3588 и правда о вычислительной мощности NPU  1

Вычислительная мощность показывает нам, как быстро работает НПУ, а вычислительная точность показывает, насколько точно он работает.определение количества используемых бит и диапазона представления данных во время вычисления.

На том же уровне TOPS фактическая скорость вычислений INT8 намного быстрее, чем у FP32.

Показатели NPU TOPS, заявляемые производителями, обычно основаны на точности INT8.

последние новости компании о Углубленный анализ узкого места 6TOPS RK3588 и правда о вычислительной мощности NPU  2

Высокая точность (обычно используется для обучения)
  • FP32 (одноточная плавающая точка, 32-битная): предлагает самый большой численный диапазон и точность. обычно используется в традиционных графических процессорах и компьютерах.
  • FP16/BF16 (полуточная плавающая точка, 16-битная): уменьшает объем данных вдвое, сохраняя при этом определенный уровень точности, что позволяет ускорять вычисления и экономить память.
Низкая точность (обычно используется для выводов)
  • INT8 (8-битный целый): В настоящее время отраслевой стандарт для оценки эффективности выводов краевых НПУ. Процесс преобразования весов моделей и значений активации с высокой точностью (например,FP32) до 8-битных целых чисел называется квантованием.
  • INT4 (нижняя ширина бита): Дополнительное сжатие, подходящее для сценариев с чрезвычайно высокими требованиями к потреблению энергии и задержке, но предъявляет более высокие требования к контролю потери точности модели.
Как понять фактическую производительность НПУ?

Когда вы видите, что НПУ заявляет 20 TOPS (INT8), вам нужно понять:

  • Максимальная вычислительная мощность составляет 20 триллионов операций в секунду.
  • Эта вычислительная мощность измеряется под 8-битным целым числом (INT8) точностью. Это означает, что она в основном используется для выводов ИИ (таких как распознавание изображений, обработка речи и т. Д.), а не для обучения.
  • Конечная производительность зависит от приложения: фактический пользовательский опыт (например, скорость разблокировки лица, задержка перевода в режиме реального времени) зависит не только от TOPS NPU, но и от:
    • Качество квантования модели: Сохраняет ли квантовая модель INT8 достаточную точность.
    • Пропускная способность памяти: скорость ввода и вывода данных.
    • Программный стек и драйверы: уровень оптимизации цепочки инструментов и драйверов, предоставляемых производителем чипа для развертывания модели.

Вычислительная мощность НПУ (TOPS) является показателем его скорости, в то время как вычислительная точность (например, INT8) является ключом к его эффективности и применимости.Производители, как правило, стремятся максимизировать INT8 TOPS при сохранении приемлемой потери точности, чтобы достичь низкомощной и высокоэффективной производительности выводов ИИ.

События
Контакты
Контакты: Mr. Cola
Свяжитесь сейчас
Напишите нам.