justforfun 发表于 2017-2-24 09:44:54

stm32f4和TMS320C55,计算fft

谁更快?速度有多大差距?

pulan 发表于 2017-2-24 09:58:22

主频相同的情况下,DSP还是优于ARM的。最近也在研究这个,用的ARM替代DSP正在等客户的测试报告。

justforfun 发表于 2017-2-24 10:00:12

pulan 发表于 2017-2-24 09:58
主频相同的情况下,DSP还是优于ARM的。最近也在研究这个,用的ARM替代DSP正在等客户的测试报告。 ...

stm32f4有浮点运算单元,C55只是定点的。

如果同样要计算fft,C55会快吗?要快多少?

pulan 发表于 2017-2-24 10:19:48

justforfun 发表于 2017-2-24 10:00
stm32f4有浮点运算单元,C55只是定点的。

如果同样要计算fft,C55会快吗?要快多少? ...

C55不了解,我们用的407替代c6713,是浮点的。

justforfun 发表于 2017-2-24 10:27:55

pulan 发表于 2017-2-24 10:19
C55不了解,我们用的407替代c6713,是浮点的。

tms320c6713的主频多少?比407的运算速度快吗?

pulan 发表于 2017-2-24 10:29:53

justforfun 发表于 2017-2-24 10:27
tms320c6713的主频多少?比407的运算速度快吗?

Highest-Performance Floating-Point Digital
Signal Processor (DSP): TMS320C6713B
− Eight 32-Bit Instructions/Cycle
− 32/64-Bit Data Word
− 300-, 225-, 200-MHz (GDP and ZDP), and
225-, 200-, 167-MHz (PYP) Clock Rates
− 3.3-, 4.4-, 5-, 6-Instruction Cycle Times

客户以前用的200M的规格。

justforfun 发表于 2017-2-24 10:31:23

pulan 发表于 2017-2-24 10:29
Highest-Performance Floating-Point Digital
Signal Processor (DSP): TMS320C6713B
− Eight 32-Bit In ...

Eight 32-Bit Instructions/Cycle

这个肯定比stm32f4强很多啊,但是,价格应该也贵很多啊。

pulan 发表于 2017-2-24 10:31:46

justforfun 发表于 2017-2-24 10:27
tms320c6713的主频多少?比407的运算速度快吗?

我们自己感觉407的速度达不到客户的运算速度。如果测试不通过,准备换成stm32F767试试。

pulan 发表于 2017-2-24 10:33:29

justforfun 发表于 2017-2-24 10:31
Eight 32-Bit Instructions/Cycle

这个肯定比stm32f4强很多啊,但是,价格应该也贵很多啊。 ...

是啊,选择STM32的原因就是便宜而且开发比较熟悉。DSP只用过28335之类的,现在也不属于DSP了。

justforfun 发表于 2017-2-24 11:25:28

pulan 发表于 2017-2-24 10:33
是啊,选择STM32的原因就是便宜而且开发比较熟悉。DSP只用过28335之类的,现在也不属于DSP了。 ...

交给我们用C55来开发吧,呵呵。

XIVN1987 发表于 2017-2-24 11:35:27



上面是DSP运算中最常见的点积运算,完成一次点积运算Cortex-M4需要7个时钟周期

就算按照4个一组展开运算,Cortex-M4每个点积运算也需要(4*4+3)/4 = 4.5个时钟周期

但这个运算放在典型的DSP上(如SHARC),每个点积运算只需要一个时钟周期

也就是说Cortex-M4做点积运算速度只有DSP的五分之一,不过Cortex-M7是双发射,可以同时执行两条指令,速度应该能提升一倍!!

NJ8888 发表于 2017-2-24 11:49:55

407 平方根计算,168MHz时钟,0.3us左右一次

redroof 发表于 2017-2-24 12:29:05

本帖最后由 redroof 于 2017-2-24 12:39 编辑

XIVN1987 发表于 2017-2-24 11:35
上面是DSP运算中最常见的点积运算,完成一次点积运算Cortex-M4需要7个时钟周期

就算按照4个一组展开运算 ...

M7见到十年前设计的每个时钟8条指令的c6000,等于啥也不是,完全被秒杀
200兆的c6000在刚发布的那个年代,优化好了跑算法甚至能秒杀不够优化的3G主频的奔4!
十倍的主频也抵不过架构的优化…

ffbiao 发表于 2017-2-24 12:38:22

我用STM32F767计算8192个点FFT,单精度float,不使用官方提供的dsp库情况下大概花费25ms左右,

redroof 发表于 2017-2-24 12:52:34

pulan 发表于 2017-2-24 10:29
Highest-Performance Floating-Point Digital
Signal Processor (DSP): TMS320C6713B
− Eight 32-Bit In ...

那是你客户之前用6713完全没优化吧?
足够优化了还要6713才能跑得动的算法,改用arm那么M4/M7这些连想都不要想,估计得双A9以上才有可能。

pulan 发表于 2017-2-24 13:16:56

redroof 发表于 2017-2-24 12:52
那是你客户之前用6713完全没优化吧?
足够优化了还要6713才能跑得动的算法,改用arm那么M4/M7这些连想都 ...

目前把一部分运算挪到FPGA上了。

redroof 发表于 2017-2-24 13:53:19

pulan 发表于 2017-2-24 13:16
目前把一部分运算挪到FPGA上了。

这还差不多。
如果正确使用,FPGA可以比DSP更快~
页: [1]
查看完整版本: stm32f4和TMS320C55,计算fft