滴滴出行：这起事故的起因是底层系统软件发生故障并非网传的“遭受攻击” (amobbs.com 阿莫电子技术论坛) -

armok. 发表于 2023-11-29 19:56:44

滴滴出行：这起事故的起因是底层系统软件发生故障并非网传的“遭受攻击”

armok. 发表于 2023-11-29 19:57:20

@Apache9

谣传滴滴那个大事故是 K8s 升错了版本，导致所有 pod 都被杀了，然后控制节点也一起被 kill ，导致无法回滚，所以恢复了十二个小时。

这东西我第一反应是震惊，但仔细想了想从业以来的经历，觉得倒也不奇怪，这个世界就是这么草台班子。

当然，为啥能搞出这么低级的升级错误就不说了，我们还是讨论了一下为啥恢复这么慢的。

首先，一般来说你也不能一个机房里真的就一个集群吧，再降本增效，你也得考虑万一一个集群整体挂了怎么办吧？但看起来滴滴就是真的没有。

第二，真出了这种问题，先分出一部分机器来直接重装，把核心服务拉起来，半个小时一个小时顶天，也能快速恢复起来啊。但看起来滴滴也搞不定。大家想了想，可能几个原因吧。

第一，你也不知道真的核心链路上都有哪些服务。这不是靠人手工填一次就行的，必须上 tracing，真的把请求链路抓出来才是准的。并且平时要做演练，对于非核心链路上的服务，必须真的做到挂了也不影响主流程。但凡平时的功夫没做到位，真到了关键时候，你就是发现所谓“核心服务”都拉起来了，结果请求哪个犄角旮旯没人知道的服务不成功，主流程直接就挂了，最后兜兜转转，差不多所有服务都拉起来了，主流程才真的恢复，这可不大半天就出去了。

第二，虽然说的是上 K8s，但很多公司其实只是为了上而上，根本没有真的改造成无状态的样子，配置里写死 host 写死 path 的地方多如牛毛，pod 换一台机器拉起来服务就挂。那这出了这么大的事，配置全不能用了，那可不得一点一点儿的改？如果真是这样，我觉得滴滴的同仁还挺牛逼的，这么短时间就能改完把服务都拉起来，这东西搞个一周都搞不好太正常了。

最新消息，滴滴致歉声明里领优惠券的页面又挂了，加载不出来了，这脸打的真是啪啪响。。。

总之，如果说前一阵阿里云的故障是打破了互联网大厂的技术神话，滴滴这一把真是把所谓互联网大厂技术光环的底裤都输没了。

最后，还是应了那句话，开猿节流，降本增笑

street 发表于 2023-11-29 20:56:41

下一个要看百度了

Nuker 发表于 2023-11-29 21:07:50

开猿节流，降本增笑
原谅我不厚道的笑了

qwe2231695 发表于 2023-11-30 01:30:55

语雀，阿里云，滴滴都相继出了重大故障

youright 发表于 2023-11-30 01:37:34

早台班子太多，话说嘀嘀最初架构有问题，腾讯入股后派了几十个专家去北京干了三个月，没能彻底解决问题。所以你用嘀嘀一直发现定位不准、显示不同步的问题。

PPS 发表于 2023-11-30 08:25:50

据说跟阿里一样，把下面真正干活的裁掉了

令狐冲 发表于 2023-11-30 09:55:17

总想着新人能完全替换老人。

amwjz 发表于 2023-11-30 10:18:51

HR看到运维整天无所事事，于是先裁年纪大的，好吧，有经验的就没有了，于是事情就来了

honami520 发表于 2023-11-30 10:44:49

有句话怎么说来着：善战者无赫赫之功！
一个人技术很厉害，但是不善于表现的时候，就是这样。他不声不响的什么问题都给你解决了，又或者是通过丰富的经验，一开始就避免了那些问题的发生。然后，那些不懂的人，就会觉得他做的事情很简单，都不需要加班，没啥技术含量，随便找个两三年经验的就能替代。
当然，绝大部分时候，替代了也没什么事情。但是运气不好的话，祖传代码出了问题，就会发生这样的事情了。短时间内没人能搞得定。

页: [1]

amobbs.com 阿莫电子技术论坛's Archiver

滴滴出行：这起事故的起因是底层系统软件发生故障 并非网传的“遭受攻击”

滴滴出行：这起事故的起因是底层系统软件发生故障并非网传的“遭受攻击”