苹果大规模罕见宕机
美东时间周二下午 5 点 09 分开始(北京时间周三凌晨 5 点 09 分),播客、音乐和 Arcade 游戏等服务出现问题,部分用户受到影响。尚不清楚是什么导致了中断,但从苹果系统状态页面显示,这些问题持续近两个小时。
宕机跟踪网站Downdetector.com 的数据显示,超过 4000 名用户报告了访问 Apple Music 时存在的问题,近 4000 名用户报告了访问 iCloud 的问题。用户还标记了"查找我的 iPhone "、Apple store 零售店应用、地图和支持方面的问题。
虽然亚马逊、Facebook和谷歌都曾遭遇过大范围宕机,但本次宕机的规模对苹果来说绝对是罕见的 。
除此之外,苹果公司内部企业和零售系统也一度瘫痪,多位苹果公司员工表示,由于发生了大规模的网络故障 ,使得员工无法在家工作,同时零售店的员工也无法工作,此次网络故障阻碍了公司的产品维修、调换和取货,还影响了员工之间的沟通和访问内部网络的功能 。
苹果服务器宕机的真相究竟如何,还需要官方披露,但频繁发生,肯定会影响用户的使用体验,苹果应当尽快查明根本原因并解决。
信息时代,服务器宕机事件频频发生,即使是各路大佬也难以避免。梳理了一下近年来的宕机事件:谷歌云服务器出现过全球宕机,多个国家及地区用户受到影响,最后查明服务中断的原因是云服务器存储满了。
更早之前,有不少用户的iPhone出现激活故障和iCloud登录失败。甚至不仅是iPhone,就连Apple Watch、HomePod等产品的激活也受到了影响。苹果的客服在网上回应,是因为遭遇了流量高负载情况。
广发证券交易软件也出现过宕机现象,易淘金APP一直无法登录和交易,此事一度登上微博热搜。
任天堂 Switch eShop 也遭遇过宕机故障,任天堂方面发表声明,表示网络服务遇到了困难。
……
此类事件层出不穷,相信运维都不陌生,所谓"故障有轮回,苍天饶过谁",宕机让运维的工作处于被动式"救火"状态,运维就像一块砖,哪里需要往哪搬,这种模式也让IT部门疲惫不堪。
从理论上看,没有绝对的安全、绝对可用的资源、绝对不出问题的服务器和应用程序,作为运维,需要充分了解到服务器宕机的原因及解决方法。 服务器出现宕机的原因
1.运行环境出现问题 ,机房断电导致的服务器断电(欠压,过载,波动)、机房温度过高,散热不良、资源冲突、DirectX文件的损坏、系统不完善等等原因而造成服务器宕机。
2.服务器不堪负重 ,最常见的如磁盘空间耗尽、访问值过大、程序中毒、遭受攻击等大规模高消耗服务器资源情况。
3.由于主备数据不一致导致的复制问题 。
4.性能问题 ,运维运行糟糕的SQL或Schema和索引设计等。
运维从哪些方面进行排查?
硬件
(1)检查硬件是否有冲突;
(2)对比服务器电源所负载的功率判断电源是否出现故障;
(3)扫描硬盘表面检查是否有坏道;
(4)通过错误报告和操作系统的报错信息来判断;
(5)使用替换法判断主板、CPU、SCSI/RAID卡或其他PCI设备是否出现故障。
软件
(1)检查操作系统的系统日志,可以通过系统日志来判断部分造成死机的原因;
(2)在判断硬件没有故障后,考虑系统软件的BUG和漏洞原因;
(3)如果是因为软件使用不当或系统工作压力过大,可以适当降低服务器的工作压力;
(4)电脑病毒。
了解了原因和排查的途径,运维需要从源头去预防宕机现象的发生,通常都是由于故障预警机制不完善,导致运维在宕机发生后才会进行处理,工作效率被大大降低。
以上,希望对大家有帮助。
加关注,安全热点早知道!