搜索
bottom↓
回复: 16

stm32f4和TMS320C55,计算fft

[复制链接]

出0入0汤圆

发表于 2017-2-24 09:44:54 | 显示全部楼层 |阅读模式
谁更快?速度有多大差距?

阿莫论坛20周年了!感谢大家的支持与爱护!!

月入3000的是反美的。收入3万是亲美的。收入30万是移民美国的。收入300万是取得绿卡后回国,教唆那些3000来反美的!

出0入137汤圆

发表于 2017-2-24 09:58:22 | 显示全部楼层
主频相同的情况下,DSP还是优于ARM的。最近也在研究这个,用的ARM替代DSP正在等客户的测试报告。

出0入0汤圆

 楼主| 发表于 2017-2-24 10:00:12 | 显示全部楼层
pulan 发表于 2017-2-24 09:58
主频相同的情况下,DSP还是优于ARM的。最近也在研究这个,用的ARM替代DSP正在等客户的测试报告。 ...

stm32f4有浮点运算单元,C55只是定点的。

如果同样要计算fft,C55会快吗?要快多少?

出0入137汤圆

发表于 2017-2-24 10:19:48 | 显示全部楼层
justforfun 发表于 2017-2-24 10:00
stm32f4有浮点运算单元,C55只是定点的。

如果同样要计算fft,C55会快吗?要快多少? ...

C55不了解,我们用的407替代c6713,是浮点的。

出0入0汤圆

 楼主| 发表于 2017-2-24 10:27:55 | 显示全部楼层
pulan 发表于 2017-2-24 10:19
C55不了解,我们用的407替代c6713,是浮点的。

tms320c6713的主频多少?比407的运算速度快吗?

出0入137汤圆

发表于 2017-2-24 10:29:53 | 显示全部楼层
justforfun 发表于 2017-2-24 10:27
tms320c6713的主频多少?比407的运算速度快吗?

Highest-Performance Floating-Point Digital
Signal Processor (DSP): TMS320C6713B
− Eight 32-Bit Instructions/Cycle
− 32/64-Bit Data Word
− 300-, 225-, 200-MHz (GDP and ZDP), and
225-, 200-, 167-MHz (PYP) Clock Rates
− 3.3-, 4.4-, 5-, 6-Instruction Cycle Times

客户以前用的200M的规格。

出0入0汤圆

 楼主| 发表于 2017-2-24 10:31:23 | 显示全部楼层
pulan 发表于 2017-2-24 10:29
Highest-Performance Floating-Point Digital
Signal Processor (DSP): TMS320C6713B
− Eight 32-Bit In ...

Eight 32-Bit Instructions/Cycle

这个肯定比stm32f4强很多啊,但是,价格应该也贵很多啊。

出0入137汤圆

发表于 2017-2-24 10:31:46 | 显示全部楼层
justforfun 发表于 2017-2-24 10:27
tms320c6713的主频多少?比407的运算速度快吗?

我们自己感觉407的速度达不到客户的运算速度。如果测试不通过,准备换成stm32F767试试。

出0入137汤圆

发表于 2017-2-24 10:33:29 | 显示全部楼层
justforfun 发表于 2017-2-24 10:31
Eight 32-Bit Instructions/Cycle

这个肯定比stm32f4强很多啊,但是,价格应该也贵很多啊。 ...

是啊,选择STM32的原因就是便宜而且开发比较熟悉。DSP只用过28335之类的,现在也不属于DSP了。

出0入0汤圆

 楼主| 发表于 2017-2-24 11:25:28 | 显示全部楼层
pulan 发表于 2017-2-24 10:33
是啊,选择STM32的原因就是便宜而且开发比较熟悉。DSP只用过28335之类的,现在也不属于DSP了。 ...

交给我们用C55来开发吧,呵呵。

出0入25汤圆

发表于 2017-2-24 11:35:27 | 显示全部楼层


上面是DSP运算中最常见的点积运算,完成一次点积运算Cortex-M4需要7个时钟周期

就算按照4个一组展开运算,Cortex-M4每个点积运算也需要(4*4+3)/4 = 4.5个时钟周期

但这个运算放在典型的DSP上(如SHARC),每个点积运算只需要一个时钟周期

也就是说Cortex-M4做点积运算速度只有DSP的五分之一,不过Cortex-M7是双发射,可以同时执行两条指令,速度应该能提升一倍!!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出0入0汤圆

发表于 2017-2-24 11:49:55 | 显示全部楼层
407 平方根计算,168MHz时钟,0.3us左右一次

出300入477汤圆

发表于 2017-2-24 12:29:05 来自手机 | 显示全部楼层
本帖最后由 redroof 于 2017-2-24 12:39 编辑
XIVN1987 发表于 2017-2-24 11:35
上面是DSP运算中最常见的点积运算,完成一次点积运算Cortex-M4需要7个时钟周期

就算按照4个一组展开运算 ...


M7见到十年前设计的每个时钟8条指令的c6000,等于啥也不是,完全被秒杀
200兆的c6000在刚发布的那个年代,优化好了跑算法甚至能秒杀不够优化的3G主频的奔4!
十倍的主频也抵不过架构的优化…

出0入0汤圆

发表于 2017-2-24 12:38:22 | 显示全部楼层
我用STM32F767计算8192个点FFT,单精度float,不使用官方提供的dsp库情况下大概花费25ms左右,

出300入477汤圆

发表于 2017-2-24 12:52:34 来自手机 | 显示全部楼层
pulan 发表于 2017-2-24 10:29
Highest-Performance Floating-Point Digital
Signal Processor (DSP): TMS320C6713B
− Eight 32-Bit In ...

那是你客户之前用6713完全没优化吧?
足够优化了还要6713才能跑得动的算法,改用arm那么M4/M7这些连想都不要想,估计得双A9以上才有可能。

出0入137汤圆

发表于 2017-2-24 13:16:56 | 显示全部楼层
redroof 发表于 2017-2-24 12:52
那是你客户之前用6713完全没优化吧?
足够优化了还要6713才能跑得动的算法,改用arm那么M4/M7这些连想都 ...

目前把一部分运算挪到FPGA上了。

出300入477汤圆

发表于 2017-2-24 13:53:19 | 显示全部楼层
pulan 发表于 2017-2-24 13:16
目前把一部分运算挪到FPGA上了。

这还差不多。
如果正确使用,FPGA可以比DSP更快~
回帖提示: 反政府言论将被立即封锁ID 在按“提交”前,请自问一下:我这样表达会给举报吗,会给自己惹麻烦吗? 另外:尽量不要使用Mark、顶等没有意义的回复。不得大量使用大字体和彩色字。【本论坛不允许直接上传手机拍摄图片,浪费大家下载带宽和论坛服务器空间,请压缩后(图片小于1兆)才上传。压缩方法可以在微信里面发给自己(不要勾选“原图),然后下载,就能得到压缩后的图片】。另外,手机版只能上传图片,要上传附件需要切换到电脑版(不需要使用电脑,手机上切换到电脑版就行,页面底部)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|amobbs.com 阿莫电子技术论坛 ( 粤ICP备2022115958号, 版权所有:东莞阿莫电子贸易商行 创办于2004年 (公安交互式论坛备案:44190002001997 ) )

GMT+8, 2024-4-27 01:38

© Since 2004 www.amobbs.com, 原www.ourdev.cn, 原www.ouravr.com

快速回复 返回顶部 返回列表