hyz_avr 发表于 2023-3-16 11:12:19

有没有在mcu上能用的中文分词算法?

其实只要简单的按词典分词就够用了,但是词典有没有现成的,还有怎么才能快速找出来,不知道有没有现成的算法可以用。

honami520 发表于 2023-3-16 13:03:44

是说怎么有这么奇怪的需求呢,看了下签名,就了解了

Himem 发表于 2023-3-16 13:30:52

python的jieba库里记得有不同规模的字典

2nd 发表于 2023-3-16 13:31:58

本帖最后由 2nd 于 2023-3-16 13:43 编辑

可以参考:
百度自然语言处理(Natural Language Processing,NLP)
举个例子:百度的千言数据集

编辑说明:追加细节回答楼主问题

hyz_avr 发表于 2023-3-16 13:38:00

2nd 发表于 2023-3-16 13:31
可以参考:百度自然语言处理(Natural Language Processing,NLP)
(引用自4楼)

百度的只是接口调用,在mcu上面,没啥实际意义吧

hexenzhou 发表于 2023-3-16 15:26:41

这个要MPU才能玩得转,MCU就算了。

三年模拟 发表于 2023-3-16 18:22:04

全志芯片便宜速度快,不要再用mcu了

Nuker 发表于 2023-3-16 18:53:24

如果老板一定要你在2毛钱的MCU上面去实现,该怎么办呢?

sdlqzql 发表于 2023-3-16 19:08:36

三年模拟 发表于 2023-3-16 18:22
全志芯片便宜速度快,不要再用mcu了
(引用自7楼)

全志arm吗

jgw 发表于 2023-3-16 19:23:57

三年模拟 发表于 2023-3-16 18:22
全志芯片便宜速度快,不要再用mcu了
(引用自7楼)

全志的哪个便宜呀,大概啥价位,想了解下

Himem 发表于 2023-3-16 19:28:31

本帖最后由 Himem 于 2023-3-16 19:32 编辑

jgw 发表于 2023-3-16 19:23
全志的哪个便宜呀,大概啥价位,想了解下
(引用自10楼)

f1c100s
CPU ARM9 400MHz, sip 32M DDR, 2K H.264 decoder, USB/UART/SPI/I2C/I2S/IR/TP/KEYPAD/CSI/CVBS IN/OWA…

价格最离谱的时候开发板才9块9

t3486784401 发表于 2023-3-16 19:30:39

本帖最后由 t3486784401 于 2023-3-16 19:33 编辑

全离线情况下,除了词组穷举,应该没好办法。

假定常用字<8k(13bit),每个字平均有800个后缀可组成双字词语,总词量=6.4M,词库大小 6.4M*26bit = 20.8MB

这个词库可以遍历在线获得(前提是不被封号),然后作为数据编译进离线代码。

即使这样,对于诸如 “一次性交易” 这样的依旧无解

jgw 发表于 2023-3-16 19:38:06

Himem 发表于 2023-3-16 19:28
f1c100s
CPU ARM9 400MHz, sip 32M DDR, 2K H.264 decoder, USB/UART/SPI/I2C/I2S/IR/TP/KEYPAD/CSI/CVBS ...
(引用自11楼)

太牛了,这个性价比真是绝了,很多产品都能用

hyz_avr 发表于 2023-3-16 19:55:20

t3486784401 发表于 2023-3-16 19:30
全离线情况下,除了词组穷举,应该没好办法。

假定常用字
(引用自12楼)

准备用C#写个软件,来生成这些词组库,然后词组按长度排列,比如6个字的词,5个字个词,。。。2个字的词语,然后按首字编码排序,匹配的时候优先匹配长的词语,二分查找,应该也不会太慢。

页: [1]
查看完整版本: 有没有在mcu上能用的中文分词算法?