stm32f4和TMS320C55，计算fft

justforfun · 发表于 2017-2-24 09:44:54

谁更快？速度有多大差距？

pulan · 发表于 2017-2-24 09:58:22

主频相同的情况下，DSP还是优于ARM的。最近也在研究这个，用的ARM替代DSP正在等客户的测试报告。

justforfun · 发表于 2017-2-24 10:00:12

pulan 发表于 2017-2-24 09:58
主频相同的情况下，DSP还是优于ARM的。最近也在研究这个，用的ARM替代DSP正在等客户的测试报告。 ...

stm32f4有浮点运算单元，C55只是定点的。

如果同样要计算fft，C55会快吗？要快多少？

pulan · 发表于 2017-2-24 10:19:48

justforfun 发表于 2017-2-24 10:00
stm32f4有浮点运算单元，C55只是定点的。

如果同样要计算fft，C55会快吗？要快多少？ ...

C55不了解，我们用的407替代c6713，是浮点的。

justforfun · 发表于 2017-2-24 10:27:55

pulan 发表于 2017-2-24 10:19
C55不了解，我们用的407替代c6713，是浮点的。

tms320c6713的主频多少？比407的运算速度快吗？

pulan · 发表于 2017-2-24 10:29:53

justforfun 发表于 2017-2-24 10:27
tms320c6713的主频多少？比407的运算速度快吗？

Highest-Performance Floating-Point Digital
Signal Processor (DSP): TMS320C6713B
− Eight 32-Bit Instructions/Cycle
− 32/64-Bit Data Word
− 300-, 225-, 200-MHz (GDP and ZDP), and
225-, 200-, 167-MHz (PYP) Clock Rates
− 3.3-, 4.4-, 5-, 6-Instruction Cycle Times

客户以前用的200M的规格。

justforfun · 发表于 2017-2-24 10:31:23

pulan 发表于 2017-2-24 10:29
Highest-Performance Floating-Point Digital
Signal Processor (DSP): TMS320C6713B
− Eight 32-Bit In ...

Eight 32-Bit Instructions/Cycle

这个肯定比stm32f4强很多啊，但是，价格应该也贵很多啊。

pulan · 发表于 2017-2-24 10:31:46

justforfun 发表于 2017-2-24 10:27
tms320c6713的主频多少？比407的运算速度快吗？

我们自己感觉407的速度达不到客户的运算速度。如果测试不通过，准备换成stm32F767试试。

pulan · 发表于 2017-2-24 10:33:29

justforfun 发表于 2017-2-24 10:31
Eight 32-Bit Instructions/Cycle

这个肯定比stm32f4强很多啊，但是，价格应该也贵很多啊。 ...

是啊，选择STM32的原因就是便宜而且开发比较熟悉。DSP只用过28335之类的，现在也不属于DSP了。

justforfun · 发表于 2017-2-24 11:25:28

pulan 发表于 2017-2-24 10:33
是啊，选择STM32的原因就是便宜而且开发比较熟悉。DSP只用过28335之类的，现在也不属于DSP了。 ...

交给我们用C55来开发吧，呵呵。

XIVN1987 · 发表于 2017-2-24 11:35:27

上面是DSP运算中最常见的点积运算，完成一次点积运算Cortex-M4需要7个时钟周期

就算按照4个一组展开运算，Cortex-M4每个点积运算也需要(4*4+3)/4 = 4.5个时钟周期

但这个运算放在典型的DSP上（如SHARC），每个点积运算只需要一个时钟周期

也就是说Cortex-M4做点积运算速度只有DSP的五分之一，不过Cortex-M7是双发射，可以同时执行两条指令，速度应该能提升一倍！！

NJ8888 · 发表于 2017-2-24 11:49:55

407 平方根计算，168MHz时钟，0.3us左右一次

redroof · 发表于 2017-2-24 12:29:05

本帖最后由 redroof 于 2017-2-24 12:39 编辑

XIVN1987 发表于 2017-2-24 11:35
上面是DSP运算中最常见的点积运算，完成一次点积运算Cortex-M4需要7个时钟周期

就算按照4个一组展开运算 ...

M7见到十年前设计的每个时钟8条指令的c6000,等于啥也不是，完全被秒杀
200兆的c6000在刚发布的那个年代，优化好了跑算法甚至能秒杀不够优化的3G主频的奔4！
十倍的主频也抵不过架构的优化…

ffbiao · 发表于 2017-2-24 12:38:22

我用STM32F767计算8192个点FFT，单精度float，不使用官方提供的dsp库情况下大概花费25ms左右，

redroof · 发表于 2017-2-24 12:52:34

pulan 发表于 2017-2-24 10:29
Highest-Performance Floating-Point Digital
Signal Processor (DSP): TMS320C6713B
− Eight 32-Bit In ...

那是你客户之前用6713完全没优化吧？
足够优化了还要6713才能跑得动的算法，改用arm那么M4/M7这些连想都不要想，估计得双A9以上才有可能。

pulan · 发表于 2017-2-24 13:16:56

redroof 发表于 2017-2-24 12:52
那是你客户之前用6713完全没优化吧？
足够优化了还要6713才能跑得动的算法，改用arm那么M4/M7这些连想都 ...

目前把一部分运算挪到FPGA上了。

redroof · 发表于 2017-2-24 13:53:19

pulan 发表于 2017-2-24 13:16
目前把一部分运算挪到FPGA上了。

这还差不多。
如果正确使用，FPGA可以比DSP更快～

stm32f4和TMS320C55，计算fft

阿莫论坛20周年了！感谢大家的支持与爱护！！

本帖子中包含更多资源