搜索
bottom↓
回复: 12

gpu的PCIE子卡上电偶发丢设备

[复制链接]

出0入0汤圆

发表于 2021-1-3 13:18:01 | 显示全部楼层 |阅读模式

做了一块GPU的PCIE子卡,插到CPU的PCIE插槽上,上电偶尔丢设备(CPU找不到这个子卡设备,无法读写地址空间),CPU插别的子卡没出现过这种问题,如果设备上电没丢又能一直正常工作,有人遇到过这种情况吗

阿莫论坛20周年了!感谢大家的支持与爱护!!

一只鸟敢站在脆弱的枝条上歇脚,它依仗的不是枝条不会断,而是自己有翅膀,会飞。

出0入42汤圆

发表于 2021-1-3 13:22:39 来自手机 | 显示全部楼层
上电启动不够快吗?好像要在bios枚举之前启动,不然是找不到设备的

出5入8汤圆

发表于 2021-1-3 14:22:32 | 显示全部楼层
和我现在电脑装的AX220网卡类似,也是偶然开机或休眠后,就是找不到,设备管理器里就是没有。然后休眠之后唤醒,有时又出现了。

出0入0汤圆

 楼主| 发表于 2021-1-3 16:38:18 | 显示全部楼层
我是一个大白菜 发表于 2021-1-3 13:22
上电启动不够快吗?好像要在bios枚举之前启动,不然是找不到设备的

应该不是,我这边已经让子卡提前上电,枚举之前就复位准备好了,上电偶发丢设备,但是在uboot下每次都能扫描到设备,只是系统起来后有时候不能进行空间读写

出0入42汤圆

发表于 2021-1-3 17:12:22 来自手机 | 显示全部楼层
狂羁青马 发表于 2021-1-3 16:38
应该不是,我这边已经让子卡提前上电,枚举之前就复位准备好了,上电偶发丢设备,但是在uboot下每次都能 ...

那这个我不知道了,要其他大神指点一下

出0入0汤圆

发表于 2021-1-4 16:13:32 | 显示全部楼层
测眼图,测时钟,测复位

出0入0汤圆

 楼主| 发表于 2021-1-6 19:27:43 | 显示全部楼层
wgxold 发表于 2021-1-4 16:13
测眼图,测时钟,测复位

好的,不同的PCIE子卡丢设备概率还不一样

出0入0汤圆

发表于 2021-1-6 23:14:52 | 显示全部楼层
狂羁青马 发表于 2021-1-6 19:27
好的,不同的PCIE子卡丢设备概率还不一样

PCIE什么版本?是否开了展频?板上是否有时钟buffer?复位电路是如何设计的?强制降成x1模式是否有改善?

出0入0汤圆

发表于 2021-1-6 23:18:13 | 显示全部楼层
狂羁青马 发表于 2021-1-6 19:27
好的,不同的PCIE子卡丢设备概率还不一样

kernerl启动可能会触发PCIE EP重新枚举的,这个也是个怀疑点,可以量下启动过程中复位信号的情况。

出0入0汤圆

 楼主| 发表于 2021-1-8 09:51:25 | 显示全部楼层
wgxold 发表于 2021-1-6 23:18
kernerl启动可能会触发PCIE EP重新枚举的,这个也是个怀疑点,可以量下启动过程中复位信号的情况。

...

cpu和子卡使用同一时钟buffer输出,没有开展频,CPLD控制cpu和子卡复位,子卡先复位准备好
目前,我排查到CPU支持PCIE3.0所以设计CPU板卡时发送端使用了0.22uf电容,而子卡设备都是
PCIE1.0和PCIE2.0的,我现在将CPU板卡PCIE端按2.0设计,发送端换为0.1uf电容,uboot将CPU的
pcie强制配置为PCIE1.0,子卡设备正常,上电未发生丢失现象了,但是uboot将CPU的PCIE强制
配置为PCIE2.0,PICE2.0的子卡还是会发生上电丢失设备的现象,难道是PCB链路设计不够稳定??

uboot可以对CPU的PCIE配置去加重和均衡值参数,这样可以调节链路稳定性??
PCIE3.0规范和PCIE2.0 PCIE1.0规范,要求TX端电容值不一样,难道PCIE3.0和PCIE2.0 PCIE1.0硬件上不能直接兼容??

出0入45汤圆

发表于 2021-1-8 11:49:22 | 显示全部楼层
狂羁青马 发表于 2021-1-8 09:51
cpu和子卡使用同一时钟buffer输出,没有开展频,CPLD控制cpu和子卡复位,子卡先复位准备好
目前,我排查 ...

只要你CPU 支持3.0 .那个电容就可以是220nf.
在intel的手册中PCIE 子卡的 链路不得超过1.5inch还是多少。主板 + 子卡一起是14inch 。
所以你要在BIOS中把预加重 调到最大试试,另外测眼图把

出0入0汤圆

发表于 2021-1-8 12:43:40 | 显示全部楼层
狂羁青马 发表于 2021-1-8 09:51
cpu和子卡使用同一时钟buffer输出,没有开展频,CPLD控制cpu和子卡复位,子卡先复位准备好
目前,我排查 ...

PCIE3.0以下硬件链路是兼容的。

EP的复位是CPLD控制的,和CPU无关?这也有问题吧

出0入0汤圆

发表于 2021-1-8 12:46:36 | 显示全部楼层
狂羁青马 发表于 2021-1-8 09:51
cpu和子卡使用同一时钟buffer输出,没有开展频,CPLD控制cpu和子卡复位,子卡先复位准备好
目前,我排查 ...

时钟长度约束是否满足要求?复位信号脉宽、上电时序是否满足要求?

1.0正常,测试了多久的结论?有测压力么?

如果1.0能通过一定时间的压力测试,那就专心测眼图吧,链路有问题的概率比较大。
回帖提示: 反政府言论将被立即封锁ID 在按“提交”前,请自问一下:我这样表达会给举报吗,会给自己惹麻烦吗? 另外:尽量不要使用Mark、顶等没有意义的回复。不得大量使用大字体和彩色字。【本论坛不允许直接上传手机拍摄图片,浪费大家下载带宽和论坛服务器空间,请压缩后(图片小于1兆)才上传。压缩方法可以在微信里面发给自己(不要勾选“原图),然后下载,就能得到压缩后的图片】。另外,手机版只能上传图片,要上传附件需要切换到电脑版(不需要使用电脑,手机上切换到电脑版就行,页面底部)。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|amobbs.com 阿莫电子技术论坛 ( 粤ICP备2022115958号, 版权所有:东莞阿莫电子贸易商行 创办于2004年 (公安交互式论坛备案:44190002001997 ) )

GMT+8, 2024-5-16 02:28

© Since 2004 www.amobbs.com, 原www.ourdev.cn, 原www.ouravr.com

快速回复 返回顶部 返回列表