首页 > 科技要闻 > 科技> 正文

数字化“惊雷”,大厂App为何排队宕机?

曾宪天 编辑: 曾宪天 发布于:2023-12-05 18:06 PConline原创

不差钱不缺人,掌握着庞大互联网生态与领先技术的大厂们,最近排着队宕机?

12月3日晚,腾讯视频App出现“首页内容无法加载内容”“VIP用户无法观看会员视频”等情况,相关话题随即成为热搜爆词。

无独有偶,前不久的11月27日,多地用户反馈滴滴出行App无法使用,出现了地图无法加载,打不到车,在寒风中锁不上单车等情况,故障时间长达12小时。

就连互联网“老大哥”阿里,也掉了链子。10月23日,蚂蚁集团旗下在线文档编辑与协同工具语雀,经历了将近8个小时的服务器宕机故障,导致在线文档和官网无法打开。

“双11”购物节刚刚结束,11月12日阿里云底层授权模块出现接近3个小时的服务不可用,涵盖范围涵盖阿里旗下多个业务版块。

钉钉等应用直接无法打开,打工人们纷纷到社交媒体上吐槽,淘宝、天猫、闲鱼等平台则出现交易系统故障,不少网购用户刷着刷着就白屏了,还有的付不了款......

“阿里全系产品崩了”、“滴滴崩了”、“腾讯视频崩了”.....颇有一种大厂一起玩“萝卜蹲”游戏的既视感。

此前红星资本局曾在相关报道中指出,以引发多家媒体报道或者登上各大社交媒体的热搜榜为基准,2023年,APP发生崩溃的事件已有14起;而在去年则约有9起。

不少深受影响的网友们也开始玩梗,用裁员、降本增项等行为来讽刺互联网大厂缺乏稳定性的系统服务,但这真的是事件背后的真相吗?

1、真是“降本增效”惹的祸?

在自家APP崩掉后,大厂们的回应往往都模棱两可,并不会提及确切的深层原因。

12月3日当晚,腾讯视频的系统故障,造成了不少用户以为会员过期,因而重新在腾讯视频App充值会员,但这部分用户的遭遇并未被腾讯视频的公告所提及。

腾讯视频只是公布了一则简短的公告回应称:“腾讯视频出现了短暂技术问题,我们正在加紧修复,各项功能在逐步恢复中。”

滴滴出行系统崩溃,给用户带来的麻烦更大。比如晚上加班后打不到车,共享单车关不上锁,通勤早高峰期无法使用滴滴叫车而在月底丢掉全勤奖等等,舆论场中充斥着大量的用户吐槽。

不过滴滴的补救措施比较全面,强调会在系统恢复后做好各类善后工作,因系统故障导致的订单异常都会统一处理,并同时发放10元优惠券。然而尴尬的是,依然出现了网友领取优惠券时系统加载异常的故障情况。

根据光明网、界面新闻等媒体报道,滴滴崩溃的十二小时内,预估损失过千万的订单量和超4亿的交易额。滴滴最终发布道歉并说明此次宕机原因是底层系统软件发生故障。

阿里旗下的APP 虽然故障时间虽然不如滴滴故障的时间长,但涵盖的范围更广,影响也或许更深远,不仅对自己的产品造成了较大的损失,也对瑞幸咖啡、蜜雪冰城、芒果TV等造成了一定影响。

不少网友对于官方回应的故障原因并不买账,在吐槽系统崩溃导致的糟糕使用体验之余,更是将宕机事件与各个互联网大厂裁员行为联系了起来,认为是企业所谓的“开源节流、降本增效”策略,波及到了相关技术、运维团队的正常运作,精简人员导致相关的技术服务、底层系统稳定性也要打折扣。

不过上述言论也仅仅是网友们的调侃或猜测,虽然真实原因难以考究,但理论上来说,在成熟的互联网技术体系中,引发大规模宕机事件的因素,更多是技术层面的问题,实际与裁员的关联性并不大。

互联网分析师丁道师对此列举了大厂们常见的几种故障原因。

首先是边缘设备故障,比如腾讯微信曾出现过大规模故障,后查证是附近的施工方把光缆切断了;人为管理漏洞,误操作或恶意行为等;系统免疫机制,比如过载保护、温度控制等,像机房冷却系统故障后,免疫机制为了防止机房升温导致火灾,会将服务器宕机下线。

另外还有外部黑客攻击、网络病毒攻击,系统自带的原生BUG,代码错误等原因,或许都是引发大规模宕机的因素。由此可见,所谓大厂降本增效、裁撤运维人员导致的宕机,可能性并不高。

2、数字化时代,经得起几次“宕机”?

移动互联网时代历经十余年的发展,人们如今的生活越来越离不开各种App,数字化应用已经融入到了我们的工作、生活、出行等方方面面。

未来的数智化发展,还将进一步让各类数字技术与人类社会的生活、生产所结合,如果依然频繁发生类似的系统大规模宕机事件,必然会产生更严重的后果和影响,这不仅仅是简单局限于一部分用户和某个商业公司的问题。

对此阿里云、腾讯云、百度云等各类云服务巨头们,往往会着重强调自己云服务体系的稳定性、先进性,安全可靠等卖点。然而事实却说明,目前类似资源弹性扩展,容灾备份,高可用系统等解决方案,都还是会出现由于系统故障而导致的业务中断问题。

无论是云服务巨头还是各类细分市场的技术服务商们,或许还需不断探索更加全面的系统解决方案,一方面尽可能地避免大规模宕机事故,另一方面则是如何将突发的系统宕机影响降至最低。

不过根据上观新闻的报道,中国计算机学会常务理事、北京大学教授金芝表示,软件系统的开发是一个复杂的系统工程,但相比于其它工程制品的构造而言,软件的“易修改性”使软件制品更易于演化和更新,即方便增加新功能,但这也对软件质量的保障带来很大挑战。

这也意味着,互联网技术朝着生态化、体系化方向深化发展的核心趋势下,系统的稳定性、可靠性建设,注定不是个容易的事。

当然,这必然不能只靠第三方云服务商的努力,各家互联网大厂们也应提升对运维团队的重视程度。在当前互联网+的模式下,大厂们都会有自己一个的技术团队,包括开发、运营维护等。当前出现的APP故障大多数与运维团队有着强关联性。

简而言之,运维团队的技术能力和响应速度,是确保云服务稳定运行的基石。大厂们通过加强培训、实施有效的监控系统和建立快速反应机制,以确保团队在面对突发事件时能够迅速有效地处理问题,与云服务商的相关技术团队更好地进行协同,尽可能地缩短宕机时间,从各方面降低宕机带来的影响。

但目前的现状是有部分企业认为运维团队是“非营利部门”、“纯开支部门”,从而忽视了团队的培养建设,也没有配置更好的资源和资金投入,导致遇到系统宕机这类突发事件时,缺乏更好地应对能力和处置机制。

经历多次大规模宕机后,互联网大厂们应该意识到损失的不仅仅是预估的金额数字,也包括用户体验下滑带来的潜在流失风险,品牌声誉和口碑受损等问题。

而在未来万物互联的时代,越来越多的智能终端,越来越智慧化的功能会不断涌现,这背后对于技术体系稳定可靠的要求和门槛也将不断提升,大规模宕机产生的危害后果也将愈发严重,或许再难经得起频繁的大规模宕机“折腾”,担此重任的互联网大厂以及云服务商们,必须得抓点紧了。

曾宪天

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部