Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
Представьте, что вы работаете над проектом AI с RK3588: видеокамера должна выполнять распознавание лиц и обнаружение автомобилей в режиме реального времени, а также поддерживать отображение пользовательского интерфейса, загрузку данных,и бизнес-логической обработкиВы заметите: падение кадров происходит, когда в кадре много объектов, большие модели не работают гладко, а температура резко повышается.
На этом этапе люди обычно говорят: "Ваша модель слишком большая" 6TOPS RK3588 недостаточно".
Но действительно ли это недостаток вычислительной мощности? Вы когда-нибудь задумывались: почему 6TOPS NPU все еще испытывает падения кадров и задержку при запуске модели 4TOPS?Ответ лежит в трех измерениях вычислительной мощности НПУ:Пиковые показатели (TOPS),Точность (INT8/FP16), иЭффективность (ширина полосы).
Вы увидите, что различные чипы подчеркивают свои спецификации NPU, с основным параметром, выделенным на видном месте: NPU вычислительная мощность: X TOPS.RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, и так далее...
Тера: представляет собой 1012.
Операции в секунду: относится к общему количеству операций ИИ, которые может выполнить НПУ за одну секунду.
![]()
Общее количество MAC-единиц является ядром вычислений нейронных сетей.Основные вычисления включают умножение входных данных на веса, а затем суммирование результатов.
Философия проектирования НПУ заключается в наличии чрезвычайно большого массива параллельных MAC-единиц.которые могут работать одновременно для достижения масштабного параллельного вычисления.
Чем больше единиц MAC, тем больше объемов вычислений, которые НПУ может выполнить за один часовой цикл.
Частота работы часов: Определяет количество циклов работы чипа NPU и его блоков MAC в секунду (измеряется в герцах, Гц).Более высокая частота позволяет массиву MAC выполнять больше операций умножения и накопления в единицу времениКогда производители объявляют о TOPS, они используют пиковую частоту работы НПУ (т.е. максимально достижимую частоту).
Операции по MAC: Полная операция MAC на самом деле включает в себя одно умножение и одно сложение.многие вычислительные стандарты считают одну операцию MAC как две основные операции (1 для умножения и 1 для сложения).
Фактор точности: Устройства MAC НПУ оптимизированы для обработки данных низкой точности (например, INT8).
Упрощенное соотношение ускорения INT8 vs FP32: поскольку 32 бита / 8 битов = 4, один блок FP32 теоретически может выполнять в 4 раза больше операций в один цикл при переключении на вычисления INT8.,Если TOPS производителя рассчитывается на основе INT8, то он должен быть умножен на коэффициент ускорения, связанный с точностью.
TOPS измеряет максимальную теоретическую вычислительную мощность.фактическая эффективная вычислительная мощность НПУ часто ниже этого пикового значения.
![]()
Вычислительная мощность показывает нам, как быстро работает НПУ, а вычислительная точность показывает, насколько точно он работает.определение количества используемых бит и диапазона представления данных во время вычисления.
На том же уровне TOPS фактическая скорость вычислений INT8 намного быстрее, чем у FP32.
Показатели NPU TOPS, заявляемые производителями, обычно основаны на точности INT8.
![]()
Когда вы видите, что НПУ заявляет 20 TOPS (INT8), вам нужно понять:
Вычислительная мощность НПУ (TOPS) является показателем его скорости, в то время как вычислительная точность (например, INT8) является ключом к его эффективности и применимости.Производители, как правило, стремятся максимизировать INT8 TOPS при сохранении приемлемой потери точности, чтобы достичь низкомощной и высокоэффективной производительности выводов ИИ.