搜索
bottom↓
回复: 16

【记录】ESP AI机器人开口说话

[复制链接]

出0入50汤圆

发表于 2025-1-24 11:12:04 | 显示全部楼层 |阅读模式
本帖最后由 span42 于 2025-1-24 11:15 编辑

原理:
咪头语音采集->调用百度语音识别转文字接口->调用百度LLM千帆ModelBuilder接口->上一接口返回的文本调用百度文本转语音接口->返回的wav推给喇叭
意思就是说,提一个问题,需要调用百度三个接口。一开始有免费资源可以撸,用完之后开始按量收费
这三个接口分别是:
1.  语音转文字,http://vop.baidu.com/server_api? ... 456PHP&token=%s
    测试中心地址 https://console.bce.baidu.com/su ... %20&method=post
2. LLM接口, https://aip.baidubce.com/rpc/2.0 ... -8k?access_token=%s
   测试中心地址  https://console.bce.baidu.com/su ... -8k&method=post
   目前用的这个Fernie-lite-8k模型,我认为比较sb,看后期是否需要换一个
3. 文字转语音, https://tsn.baidu.com/text2audio ... 100&aue=6&=
   测试中心地址  https://console.bce.baidu.com/su ... dio&method=post

调用接口url里的参数,在测试中心里都有明确说明。
注意到每个接口都有一个token参数,所以重要的就是如何拿到这个参数值。
这个参数是通过appid和secret key两个参数生成的,有效期是30天。就是说这个token参数需要30天更新一次,这会带来一些不方便。
后期可以添加自动获取token的函数弥补这个问题,当然前提条件是需要先有appid和secret key两个参数。这两个参数可通过在百度服务创建相应应用得到。

我认为,接口调用多少因人而异,合理的方式是需要个人去注册百度服务,先把免费资源撸完,这里就先记录下大概注册流程及如何获取到token参数。
1. 注册百度智能用户,有百度网盘账号就可以直接登录,地址 https://console.bce.baidu.com/
2. 开通语音技术服务  https://console.bce.baidu.com/ai ... 70&type=package
图1 开通语音识别, 这里开通的是普通话,因为接口参数dev_pid=1537对应的是普通话。后期个人开发可以修改其它语言



图2 开通语音合成, 这里开通短文本在线合成-臻品音库,接口参数per=4100对应这个音库



3. 领取免费语音资源  https://console.bce.baidu.com/ai ... ew/resource/getFree
图3  资源列表领取,半年有效期  语音识别-> 短语音识别-中文普通话  5万次  语音合成->短文本在线合成-臻品音库 1万次



4. 创建语言应用, 第3步页面里进入应用列表,创建应用
图4  名称随意写一个即可



5. 获取语音技术token, https://console.bce.baidu.com/su ... ken&method=post
图5  从步骤4新建应用找到client_id  client_secret填写鉴权参数,就可获取到我们代码里需要的access_token



6. 开通千帆大模型应用  https://console.bce.baidu.com/qianfan/overview ,进入"应用接入"菜单,创建应用,至少选择“ERNIE-Lite-8K” 服务
7. 获取LLM token, https://console.bce.baidu.com/su ... ken&method=post
同步骤5

将步骤5和7获取到的access_token填入代码sdkconfig对应位置,编译下载,联网正常的话就可以对话聊天了
如图是对话全过程,比较弱鸡

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

阿莫论坛20周年了!感谢大家的支持与爱护!!

现在可以确认前几天特朗普说乌克兰有几千军队在库尔斯克被俄军包围的事情纯属子虚乌有。这种张嘴就来的垃圾就是如今美利坚的总统。

出0入50汤圆

 楼主| 发表于 2025-1-24 11:13:14 | 显示全部楼层
图哪去了

出17495入7043汤圆

发表于 2025-1-24 11:38:28 来自手机 | 显示全部楼层

我能看到图片啊。

出0入50汤圆

 楼主| 发表于 2025-1-24 11:48:49 | 显示全部楼层

是的,刚应该是没编辑好

出0入10汤圆

发表于 2025-1-24 16:13:25 | 显示全部楼层

感谢分享!楼主辛苦啦!科大讯飞楼主有研究没?早期我看有用科大讯飞的。也是免费的 讯飞有语音+AI星火大模型

出0入10汤圆

发表于 2025-1-24 16:22:34 | 显示全部楼层
这是早期一个高校老师 采用科大讯飞api做的:https://www.bilibili.com/video/B ... &up_id=91374934

出0入10汤圆

发表于 2025-1-24 16:26:29 | 显示全部楼层
讯飞的语音很强、感觉很流畅哈

出0入50汤圆

 楼主| 发表于 2025-1-24 17:06:12 来自手机 | 显示全部楼层
正好研究研究

出125入16汤圆

发表于 2025-1-24 17:07:29 | 显示全部楼层
值得学习,赶上AI的脚步

出0入50汤圆

 楼主| 发表于 2025-1-26 11:40:07 | 显示全部楼层
jaywen 发表于 2025-1-24 16:26
讯飞的语音很强、感觉很流畅哈
(引用自7楼)

讯飞的搞通了,免费token撸完再说
可以这么说,无论谁家大模型,对于设备端来说,就是个http的接口调用,所以没什么难度。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

出0入10汤圆

发表于 2025-1-27 15:32:24 | 显示全部楼层
span42 发表于 2025-1-26 11:40
讯飞的搞通了,免费token撸完再说
可以这么说,无论谁家大模型,对于设备端来说,就是个http的接口调用, ...
(引用自10楼)

给力给力。

出0入233汤圆

发表于 2025-1-27 17:21:05 来自手机 | 显示全部楼层
现在这个对话是不是豆包的会更好一些

出0入50汤圆

 楼主| 发表于 2025-1-27 19:44:05 | 显示全部楼层
yyts 发表于 2025-1-27 17:21
现在这个对话是不是豆包的会更好一些
(引用自12楼)

很难说哪个好,各家的LLM都有很多种,有Lite版本也有Pro版本

出0入0汤圆

发表于 2025-3-8 20:33:51 | 显示全部楼层
小智的音频流是后台处理的还是在客户端ESP32上面处理的?你发的原理看上去是在后台服务器处理的

出0入328汤圆

发表于 2025-3-8 20:47:28 来自手机 | 显示全部楼层
lnso 发表于 2025-3-8 20:33
小智的音频流是后台处理的还是在客户端ESP32上面处理的?你发的原理看上去是在后台服务器处理的 ...
(引用自14楼)

应该是本地有个简易版ASR模型用于检测关键词触发录音,所以这种只是硬件便宜,后续运行带宽跟模型费用不低。感觉还是像rk3566或者rk3588这种本地能跑ASR跟TTS模型的比较适合做ai agent

出0入0汤圆

发表于 2025-3-8 22:21:26 来自手机 | 显示全部楼层
乐鑫不是出了个ESP32 ADF

出0入233汤圆

发表于 2025-3-8 22:47:18 来自手机 | 显示全部楼层
本帖最后由 yyts 于 2025-3-8 22:49 编辑

不得不说,这AI机器人还挺好玩的.

【荧光棒变身氛围灯与小智Ai联动-哔哩哔哩】 https://b23.tv/rk2cQgp

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回帖提示: 反政府言论将被立即封锁ID 在按“提交”前,请自问一下:我这样表达会给举报吗,会给自己惹麻烦吗? 另外:尽量不要使用Mark、顶等没有意义的回复。不得大量使用大字体和彩色字。【本论坛不允许直接上传手机拍摄图片,浪费大家下载带宽和论坛服务器空间,请压缩后(图片小于1兆)才上传。压缩方法可以在微信里面发给自己(不要勾选“原图),然后下载,就能得到压缩后的图片】。另外,手机版只能上传图片,要上传附件需要切换到电脑版(不需要使用电脑,手机上切换到电脑版就行,页面底部)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|amobbs.com 阿莫电子技术论坛 ( 粤ICP备2022115958号, 版权所有:东莞阿莫电子贸易商行 创办于2004年 (公安交互式论坛备案:44190002001997 ) )

GMT+8, 2025-3-21 14:09

© Since 2004 www.amobbs.com, 原www.ourdev.cn, 原www.ouravr.com

快速回复 返回顶部 返回列表