Ary 发表于 2023-3-13 20:28:38

请教如何定位ubuntu上跑自己的代码偶现死机问题

1、平台使用的imx6Q系列,初步定位为的wifi驱动导致主控死机,wifi模块使用的是RS9113系列;
2、死机现象往往出现在连续长时间运行一两天时;
3、死机后主控不运行,SSH无法连接。
4、附件为内核日志,大约在Mar 13 09:53:00出现
求教如何定位大体原因或者思路。

liuxiangyub 发表于 2023-3-13 23:06:22

MARK

坐等高手出招。学习一下。
若是MCU类,我直觉是栈溢出,调用层数太多或局部变量太大。

或 楼主试试把某些模块屏蔽一下,看能否进一步缩短范围?

墨非 发表于 2023-3-14 09:50:15

CMA内存不够吧,试着调大一点看看

polarbear 发表于 2023-3-14 10:08:00

分析这类问题有个容易掉坑的地方, 这个有可能是系统不稳定导致的死机(硬件电路问题, 还有SDRAM配置,时钟配置。。。),而WIFI 驱动只是背锅的, 分析问题的人关注点就落在了WIFI驱动上面

iamseer 发表于 2023-3-14 10:15:05

WIFI超费电的,一定得保证供电充足。之前误用XC6206给Wi-Fi模块供电表现就是驱动问题。但实际上是供电问题。

Ary 发表于 2023-3-14 14:17:05

liuxiangyub 发表于 2023-3-13 23:06
MARK

坐等高手出招。学习一下。
(引用自2楼)

这是一上线的设备,开发的团队解散了,稍微动点东西就没法跑。我们很难复现模拟出死机场景,一般是在用户现场出现,而且概率比较低。所以定位起来比较麻烦,不好复现。

Ary 发表于 2023-3-14 14:21:12

polarbear 发表于 2023-3-14 10:08
分析这类问题有个容易掉坑的地方, 这个有可能是系统不稳定导致的死机(硬件电路问题, 还有SDRAM配置,时钟 ...
(引用自4楼)

已知的是wifi模块在AP间漫游时会出问题,导致设备容易掉线。之前定位内核日志也指向wifi驱动。

Ary 发表于 2023-3-14 14:22:00

iamseer 发表于 2023-3-14 10:15
WIFI超费电的,一定得保证供电充足。之前误用XC6206给Wi-Fi模块供电表现就是驱动问题。但实际上是供电问题 ...
(引用自5楼)

这个概率比较低,目前几千台设备在线运行,如果是供电问题那复现的几率会很高。
页: [1]
查看完整版本: 请教如何定位ubuntu上跑自己的代码偶现死机问题