日本第二大移动运营商KDDI因设备问题突发通信故障,近3915万用户受影响,是日本人口的1/3。诡异的是,40小时仍未完全恢复,这是毫无疑问的重大事故,负责人鞠躬了。
一、日本KDDI遭遇有史以来最严重网络中断事故 4000万客户受到影响
当地时间7月2日凌晨1点35分开始,日本运营商KDDI的移动网络发生大规模通信故障,导致全日本范围内无法拨打电话、无法收发短信、数据通信变慢。
(资料图片)
此次事故影响范围大,持续时间长,影响用户数量达3915万,故障一直持续到7月4日下午才基本完全恢复,给日本全社会造成了极大的不便和损失,也是KDDI有史以来遭遇的最大一次网络系统故障。
故障发生后,KDDI高层及时召开新闻发布会,向广大深受影响的个人和企业用户鞠躬致歉,并表示考虑赔偿损失。
二、什么原因造成了此次大规模通信故障?
核心阅读点 :例行检修时升级更换核心路由器导致VoLTE交换机报错,大量VoLTE链接断线。于是他们重启VoLTE交换机,进而又导致大规模的客户端请求重新连接,把交换机挤爆了。这个交换机不能正常运作又导致用户数据库发生数据不一致,进一步扩大了故障规模。最后只能一边限流一边恢复数据库,拖到了现在。
1、KDDI事故说明会情况:
・道歉 ・事件概要的说明(确认事实) ・事件影响的说明 ・事件原因的说明 ・按时间顺序说明主要治疗的响应状态 ・目前正在考虑复发预防措施(永久治疗) ・再次道歉总裁简要解释了这一点。
2、KDDI的报告原因要点提炼:
故障原因一:
核心路由器割接失败
7月2日凌晨,KDDI组织工程师对连接全国移动核心网和中继网络的一个核心路由器进行割接,将老旧的核心路由器更换为新产品。
不幸的是,通信人最担心的噩梦发生了——割接失败了。在更换核心路由器的过程中,新的核心路由器出现了不明原因的故障。
搞通信的伙伴们都知道,核心路由器位于网络核心位置,是整个网络的“交通枢纽”,不仅性能强悍、价格昂贵,且需时时刻刻保持稳定运行,否则,一旦出现问题,动辄可能影响全网数百万甚至数千万用户。
正因如此,核心路由器割接好比为活人换“心脏”,是一项极具挑战的工作,也对要更换的新产品的成熟性、稳定性、互联互通性等能力要求极高。
但KDDI偏偏在这项要求极其谨慎的工作上掉了链子,接下来的后果当然就相当严重了——由于新核心路由器无法将语音流量正确路由到VoLTE交换节点,直接导致部分VoLTE语音业务中断15分钟。
故障原因二:
信令风暴击溃VoLTE网络
核心路由器割接失败,这场景简直不敢想象,隔着屏幕都能吓出冷汗!
怎么办?赶紧回退呗。KDDI的工程师们快速启动了回退操作,于7月2日凌晨1点50分将连接重新切换回旧的核心路由器。
但更大的问题发生了。
回退后,“由于VoLTE终端每50分钟进行一次位置注册”,大量终端向VoLTE交换节点发起位置注册信令,以重新连接至网络。海量信令集中突发,很快引发VoLTE交换节点拥塞,致使大量用户无法进行VoLTE通信。
同时,移动网络中有一个“用户数据库”,负责存储用户的签约数据和位置信息,由于VoLTE交换节点拥塞,“注册在用户数据库的位置信息无法反映在VoLTE交换机上”,出现数据不匹配问题,也导致很多用户无法通信和拨打电话。
针对此情况,KDDI于7月2日凌晨3:00后开始从无线侧、VoLTE核心网侧同时实施流量控制策略,以及通过断开PGW的方式减轻用户数据库负荷,以缓解网络拥塞,并在PGW采用“会话重置”措施解决用户数据库中的数据不一致问题。
注意:四千万volte用户共用一个核心网,但整不起第二平面?小日子已经过得不太好的感觉。这次中断累计障碍历时,只怕超过中国运营商整个生命周期的故障历时了!
因为实施流量控制,接下来导致了全国范围内的数据通信和语音通话难以连接。
接下来,KDDI开始紧张的网络恢复工作。7月3日上午11点,KDDI宣布日本西部基本完成网络修复工作。下午5点30分,日本东部基本完成。但仍然有一些用户难以进行数据通信和语音通话。
直到7月4日下午4点,距离故障发生62个小时后,KDDI表示已在全国范围内基本恢复。
根据日本《电气通信事业法》规定,若超过3万人在1小时以上无法拨打紧急电话联系上消防或警方,这种情况将被视为“重大事故”。显然,这是一起重大事故,类似重大通信事故近期在多国都有发生,我国也有运营商因网络升级测试影响部分用户的使用。
三、有何借鉴意义?
业内人士指出:进入5G时代,通信网络发生了根本的变化,这种变化是多层面的,在网络层面,上网需求激增,而短信、语音业务都在向新模式转移,对业务自身和网络都提出了全新的挑战,在用户层面,多因素混合影响,随时可造成局部流量满负荷或超负荷(一个类似例子,即使有云服务快速调整支撑,微博也多次出现流量激增导致的连接缓慢)。
美国等国家积极推进的OPEN RAN,这会减弱网络运营商对几大电信设备商的依赖,但也对网络运营商提出了更高要求,而且带来了网络的不确定性,也增加了网络出现故障的几率(一定程度上,也降低了设备故障对全网的影响)。
从电信网络运营商上,一边要积极拥抱OPEN RAN、云、大数据、算力、行业应用等新技术、新应用,而且要积极把握新技术带来的新商机,另一边也要持续维持对用户的尊重、对技术稳定性的高要求以及持续加强应急应对准备及演练,既要尽可能降低网络故障的发生,又能通过快速应急方案实施,减少故障带来的影响。
从普通用户角度,也并不是只能被动接受网络故障,也可以采取积极的应对以避免各种原因断网带来的损失,包括网络故障、网络盲区及用户自身原因(如欠费、未按要求实名认证)。具体做法是,不要把“联系号码”全部放到一个运营商上。目前最好的做法是:同时拥有两个号码,根据现在电信运营商的合作关系,可选择中国联通有一个号码(上网使用),中国移动或中国电信有一个号码(低流量少语音),其中一个号选大流量套餐作为常用号码,另一个选日租卡或其他低价且叠加流量资费较低套餐作为备用。这种选择可在南方和北方情况根据需要选择。
这一点其实很重要, 有的人有双卡双待,或者两个以上手机,非要办理两个同样的运营商号码,更有人还非要是使用携号转网政策转成一家运营商,这是最大的败笔。其实,你要是喜欢另外一家运营商,你就新办一个,老的别携号转网,留着自然有运营商会给你优惠,自然就又变成了低套餐高流量,还能享受两家运营商的服务,关键是:一家网络故障或者无信号的应急时刻,另一张卡就会发挥作用了!