搜索
bottom↓
回复: 36

单片机AI的春天真的来了,ARM最新DSP库已支持NEON, 且支持Python

[复制链接]

出0入0汤圆

发表于 2019-7-12 01:08:37 | 显示全部楼层 |阅读模式
本帖最后由 Eric2013 于 2019-7-12 01:10 编辑

说明:
1、今年年初的时候ARM发布Armv8.1-M架构,增加了Arm Helium技术。
2、最新的CMSIS软件包V5.6.0正式带来Armv8.1-M内核支持,为DSP库f32函数增加NEON指令支持。


Arm Helium技术用于Cortex-M内核的M-Profile矢量扩展,为其提供高达15倍的机器学习性能和高达5倍的信号处理能力,这样一来,我们可以继续使用M内核芯片,而无需采用更高性能的处理器架构。

Helium和Neon(用于Cortex-A系的高级SIMD技术)具有相似性,但Helium专为单片机的高效信号处理性能而设计。

为什么没有直接使用Cortex-A系的NEON,在ARM博文有介绍:
https://community.arm.com/arm-research/b/articles/posts/making-helium-why-not-just-add-neon


Armv8-M最新版规格书:


Armv8.1-M架构简介:







CMSIS V5.6.0更新记录:

http://www.keil.com/dd2/Pack/








  
  
  

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

阿莫论坛20周年了!感谢大家的支持与爱护!!

月入3000的是反美的。收入3万是亲美的。收入30万是移民美国的。收入300万是取得绿卡后回国,教唆那些3000来反美的!

出0入0汤圆

发表于 2019-7-12 06:52:34 | 显示全部楼层
在CPU上优化人工智能 而非加协处理器外设?

出0入0汤圆

发表于 2019-7-12 07:03:41 来自手机 | 显示全部楼层
跑马灯快了

出0入442汤圆

发表于 2019-7-12 07:37:16 来自手机 | 显示全部楼层
huangqi412 发表于 2019-7-12 06:52
在CPU上优化人工智能 而非加协处理器外设?

现在所谓的ai只是矩阵乘加运算。。只要加入向量乘加指令就算ai处理器了。这就是剥开外表的ai。tesla也不过是做了个能达到上pflops的乘加核---不知道猴年马月人类能走出矩阵乘加ai的神坑。当年提出cnn那哥们(现在的顶级研究员lecun)也真是神了,一个人把人类拖到伪ai。

出0入0汤圆

 楼主| 发表于 2019-7-12 09:02:59 | 显示全部楼层
huangqi412 发表于 2019-7-12 06:52
在CPU上优化人工智能 而非加协处理器外设?

单片机还是要突出简单易用性,让用户可以无痛掌握新技术,优化CPU是最佳选择,个人看法。

出0入8汤圆

发表于 2019-7-12 09:25:49 来自手机 | 显示全部楼层
wye11083 发表于 2019-7-12 07:37
现在所谓的ai只是矩阵乘加运算。。只要加入向量乘加指令就算ai处理器了。这就是剥开外表的ai。tesla也不 ...

AI的确如此,就是矩阵乘加
不过单片机只是用这些矩阵
如何能找这些矩阵才是关键

出0入0汤圆

发表于 2019-7-12 09:29:11 | 显示全部楼层
我就想问,运行跑马灯卡不卡?

出0入0汤圆

发表于 2019-7-12 09:45:29 来自手机 | 显示全部楼层
wye11083 发表于 2019-7-12 07:37
现在所谓的ai只是矩阵乘加运算。。只要加入向量乘加指令就算ai处理器了。这就是剥开外表的ai。tesla也不 ...

老哥评论还是这么犀利

乘加器还是很有用的。信号处理的滤波器、音视频编码器的频谱和卷积、AES对称密码的P盒和S盒,做到底层都是乘加

出0入0汤圆

 楼主| 发表于 2019-7-12 10:01:45 | 显示全部楼层
pcr386 发表于 2019-7-12 09:29
我就想问,运行跑马灯卡不卡?


跑马灯之霹雳游侠系列,经典不。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出0入0汤圆

发表于 2019-7-12 10:07:13 | 显示全部楼层
有支持的芯片了吗?

出0入42汤圆

发表于 2019-7-12 10:24:02 | 显示全部楼层
wye11083 发表于 2019-7-12 07:37
现在所谓的ai只是矩阵乘加运算。。只要加入向量乘加指令就算ai处理器了。这就是剥开外表的ai。tesla也不 ...

问题是它工作, 而且不少领域(自然语言, 图像)工作得很好. 虽然大家还不完全清楚它为什么工作得这么好.

出0入0汤圆

 楼主| 发表于 2019-7-12 10:53:13 | 显示全部楼层
wychao 发表于 2019-7-12 10:07
有支持的芯片了吗?

还没,今年ARM技术大会应该会有最新进展。

出0入0汤圆

 楼主| 发表于 2019-7-12 10:54:24 | 显示全部楼层
需要Phython支持,要看这里,在MDK的CMSIS软件包里面没
https://github.com/ARM-software/ ... S/DSP/PythonWrapper

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出0入0汤圆

发表于 2019-7-12 11:07:04 | 显示全部楼层
ARM最新DSP库已支持NEON, 且支持Python,厉害了,我老了

出0入25汤圆

发表于 2019-7-12 11:22:16 | 显示全部楼层
Eric2013 发表于 2019-7-12 10:54
需要Phython支持,要看这里,在MDK的CMSIS软件包里面没
https://github.com/ARM-software/CMSIS_5/tree/dev ...


意思是cmsis_dsp PythonWrapper和cmsis_dsp具有相似的API,可以在电脑上通过python测试cmsis_dsp PythonWrapper中的函数效果,从而相当于间接测试了cmsis_dsp的函数效果,,这样就不用在单片机上运行cmsis_dsp代码进行验证了,,加快了算法验证速度,,

并不是直接在单片机上通过python代码调用cmsis_dsp函数,,不过还是有些用处的,,比如:
1、可以更方便产生各种测试数据
2、可以用matplotlib把计算结果通过图形显示出来,更直观的查看效果,,
3、可以用scipy.signal执行相同的操作,,和cmsis_dsp PythonWrapper计算结果进行对比,,

出0入0汤圆

 楼主| 发表于 2019-7-12 11:53:21 | 显示全部楼层
XIVN1987 发表于 2019-7-12 11:22
意思是cmsis_dsp PythonWrapper和cmsis_dsp具有相似的API,可以在电脑上通过python测试cmsis_dsp Python ...

非常感谢告知这些

出0入442汤圆

发表于 2019-7-12 11:59:09 | 显示全部楼层
canspider 发表于 2019-7-12 09:25
AI的确如此,就是矩阵乘加
不过单片机只是用这些矩阵
如何能找这些矩阵才是关键 ...

这些矩阵是用caffe之类训练出来的,是个人花点时间学学就能训,只是效果有好有差罢了。那些顶级论文基本上就是修修别人的网络,跑分提高那么一丁点,每天都是在坐着调网络结构。也就是说,现在的AI发展已经遇到一个瓶颈。大家不是在研究新的AI原理,而是在各种调网络。

出0入442汤圆

发表于 2019-7-12 12:02:49 | 显示全部楼层
albert_w 发表于 2019-7-12 10:24
问题是它工作, 而且不少领域(自然语言, 图像)工作得很好. 虽然大家还不完全清楚它为什么工作得这么好. ...

所以被称为人工智障——对数据集关联性要求太高。那些典型的误识例子估计就是数据集关联性问题(输入的图像与训练的图像亮度色差对比度阈值等等不一样)。记住:现在的所谓AI只能识别跟训练集差不多光照条件、均值亮度、对比度的图像!稍有偏差就大幅漏检误检。所以现在对CNN之类有各种预处理算法来提高识别率。事实证明,CNN只能说表现相对较好,但其实还是很垃圾。举个最简单的例子,你拿个凳子告诉一个原始人,这是凳子,然后这个原始人就能找出所有长得像凳子的东西!!!!!类比能力和推理能力,所谓AI就是RZ。

出0入442汤圆

发表于 2019-7-12 12:04:14 | 显示全部楼层
fnems 发表于 2019-7-12 09:45
老哥评论还是这么犀利

乘加器还是很有用的。信号处理的滤波器、音视频编码器的频谱和卷积、AES对称密码 ...

AI和信号处理不一样啊。AI是用于推理的,而信号处理就是信号处理。现在的AI已经走进一个死胡同,没有人去研究新的AI理论,所有论文博士都在各种调网络调参数。

出0入0汤圆

发表于 2019-7-12 13:26:41 来自手机 | 显示全部楼层
wye11083 发表于 2019-7-12 12:04
AI和信号处理不一样啊。AI是用于推理的,而信号处理就是信号处理。现在的AI已经走进一个死胡同,没有人去 ...

说的是。难讲过多少年技术突破后底层依赖的还是不是乘加器了

出0入0汤圆

发表于 2019-7-12 13:54:16 | 显示全部楼层
计算力还是一个瓶颈,CNN核心的目的就是为了减少网络的参数,使神经网络的运算可以达到可接受的程度.
如果计算力还能再上升几个数量级,也许有更实用的AI出现了.

出0入8汤圆

发表于 2019-7-12 14:28:00 | 显示全部楼层
wye11083 发表于 2019-7-12 11:59
这些矩阵是用caffe之类训练出来的,是个人花点时间学学就能训,只是效果有好有差罢了。那些顶级论文基本 ...

这就是传说中的练丹

出0入0汤圆

 楼主| 发表于 2019-7-12 14:39:02 | 显示全部楼层
apple_eat 发表于 2019-7-12 13:54
计算力还是一个瓶颈,CNN核心的目的就是为了减少网络的参数,使神经网络的运算可以达到可接受的程度.
如果计 ...

单片机AI还是很有搞头的

比较有代表性的比如Fraunhofer IMS(弗劳恩霍夫协会,微电子电路和系统技术研究所),使用Arduino做了一个手势识别,数字识别用,而且是8位AVR版的实现

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出0入0汤圆

发表于 2019-7-12 14:41:01 | 显示全部楼层
只是更新CMSIS V5.6.0,还是得等发布搭载新的内核的MCU才能用呢?

出0入0汤圆

 楼主| 发表于 2019-7-12 15:08:22 | 显示全部楼层
皮尔斯 发表于 2019-7-12 14:41
只是更新CMSIS V5.6.0,还是得等发布搭载新的内核的MCU才能用呢?

现在只有软件,硬件还没有。

出0入42汤圆

发表于 2019-7-12 15:40:18 | 显示全部楼层
wye11083 发表于 2019-7-12 12:02
所以被称为人工智障——对数据集关联性要求太高。那些典型的误识例子估计就是数据集关联性问题(输入的图 ...

不要太纠结这个AI的名字, 不过是一种方法, 目前效果还行.  确实存在的问题就是搞不懂它的机制, 只能改吧改发论文. 也许有一天会再来一次crafted feature到NN的飞跃, NN就此打入现在人工feature的境地.

出0入0汤圆

发表于 2019-7-12 16:09:29 | 显示全部楼层
进来了解一下

出0入0汤圆

发表于 2019-7-15 10:31:17 | 显示全部楼层
Eric2013 发表于 2019-7-12 14:39
单片机AI还是很有搞头的

比较有代表性的比如Fraunhofer IMS(弗劳恩霍夫协会,微电子电路和系统技术研究 ...

方便放下链接么?观摩下.

出0入0汤圆

发表于 2019-7-15 12:29:44 来自手机 | 显示全部楼层
一直觉得在mcu跑py太慢了

出0入0汤圆

 楼主| 发表于 2019-7-15 18:26:28 | 显示全部楼层
pcr386 发表于 2019-7-15 10:31
方便放下链接么?观摩下.

在这里:
https://www.ims.fraunhofer.de/de ... -Systems-AIfES.html

出0入0汤圆

发表于 2019-7-18 06:34:03 | 显示全部楼层
啥时候出样片?

出0入0汤圆

发表于 2019-7-18 08:03:19 | 显示全部楼层
Eric2013 发表于 2019-7-12 10:01
跑马灯之霹雳游侠系列,经典不。

这个是不是车子跑越快,流水灯也越快?

出0入0汤圆

 楼主| 发表于 2019-7-18 12:57:43 | 显示全部楼层
nongxiaoming 发表于 2019-7-18 08:03
这个是不是车子跑越快,流水灯也越快?

跑起来是这样的,更炫酷

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出0入0汤圆

 楼主| 发表于 2019-7-18 12:59:06 | 显示全部楼层

可以关注下今年ARM技术大会2019

出0入0汤圆

发表于 2019-7-19 15:27:06 | 显示全部楼层

呃,感觉跟不上时代了~

出0入0汤圆

发表于 2019-7-21 09:05:48 来自手机 | 显示全部楼层
wye11083 发表于 2019-7-12 12:04
AI和信号处理不一样啊。AI是用于推理的,而信号处理就是信号处理。现在的AI已经走进一个死胡同,没有人去 ...

国内末流大学是这样的吧,不过现在大多数人已经不去调参了,最近出来的deep learning on graph 以及graph convolution network 已经不单纯是以前的神经网络结构了。现在基本套路是用神经网络比如 cnn, lstm 学习图像或者序列的底层特征,然后用概率图模型或者上面的gcn学习特征之间的关系。hinton的胶囊网络和 vicarious 的 recursive cortical network就是两个很新的方法。现在图像识别大家主要在做可解释性的识别。但是无论怎么样cnn都是作为一个工具来用的。我本来之前fpga的cnn核都不想开发了现在又都捡起来了,因为计算机视觉用深度模型在底层特征的生成上面不可或缺啊。 cnn在工程上可以统一物体识别和几何图像学,比如之前几何图形学里的keypoint探测用的DOG然后生成surf特征来做两张图片的特征点识别,但是现在这些全部都可以用神经网络来做也就是3d重建,visual odometry这些任务可以和物体识别共用一种计算模型。映射到fpga上就是都使用cnn ip。

出0入0汤圆

发表于 2019-7-21 21:53:25 | 显示全部楼层
NB了,边缘计算
回帖提示: 反政府言论将被立即封锁ID 在按“提交”前,请自问一下:我这样表达会给举报吗,会给自己惹麻烦吗? 另外:尽量不要使用Mark、顶等没有意义的回复。不得大量使用大字体和彩色字。【本论坛不允许直接上传手机拍摄图片,浪费大家下载带宽和论坛服务器空间,请压缩后(图片小于1兆)才上传。压缩方法可以在微信里面发给自己(不要勾选“原图),然后下载,就能得到压缩后的图片】。另外,手机版只能上传图片,要上传附件需要切换到电脑版(不需要使用电脑,手机上切换到电脑版就行,页面底部)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|amobbs.com 阿莫电子技术论坛 ( 粤ICP备2022115958号, 版权所有:东莞阿莫电子贸易商行 创办于2004年 (公安交互式论坛备案:44190002001997 ) )

GMT+8, 2024-4-27 07:17

© Since 2004 www.amobbs.com, 原www.ourdev.cn, 原www.ouravr.com

快速回复 返回顶部 返回列表