9月27日上午,有网友在社交平台爆料称:“上交所股票交易系统崩溃了!股票卖不掉,也不能撤单。”
真是活久见!上交所交易系统居然崩了,不可思议!
对此,上交所表示:“今日开盘后,本所股票竞价交易出现成交确认缓慢的异常情况,并导致交易受到影响。经处置,股票竞价交易于11点13分起逐步恢复。对于该异常情况的发生,本所深表歉意。”
大家都知道,“金融级”通常被认为是业内最高技术水准,但证券交易所交易系统出现故障并不鲜见,此前全球多家证券交易所出现宕机事件,这几年间,发生的频率明显增加。
2023年12月,纳斯达克股份下的交易所出现系统错误,影响了数千份股票订单;2024年3月份,纳斯达克股份下的交易所出现技术故障,盘前交易一度中断;
2023年1月份,纽约证券交易所(下称“纽交所”)也出现过交易事故。
再到2020年,全球各大交易所更是故障频出,为近年来发生故障较多的一年。
2月,多伦多证交所一度宣布因“订单系统技术问题”暂停股票交易。
8月31日,新西兰证券交易所网站受到网络黑客攻击而崩溃。
10月,日本东京证交所宕机事件,更是日本证交所有史以来最严重的技术故障。
11月16日澳大利亚证交所(ASX)因交易系统出现故障而被迫停业一天。
所以事实上,由于股票交易太过火爆导致交易所 IT 系统宕机的事情时有发生。上文仅仅列举了一部分,近年来发生过系统故障的海外交易所有不少,且其中多家交易所不止一次出现故障。
交易所系统的稳定性直接关系到市场的正常运行和投资者的利益。那么,上交所此次宕机到底是哪里出了问题?
随着事件发酵,上交所的IT服务商成为公众关注的焦点。社交媒体上流传的另一种说法则指向交易网关故障。
然而,这些环节是否是此次宕机的“罪魁祸首”?虽然外界猜测不断,但实际问题出在了哪里,目前尚无定论,期待后续上交所的官方回复。
针对证券IT系统的频繁宕机现象,上海证券交易所原总工程师白硕曾做出深入剖析,认为问题主要出在系统质量、运维管理和系统架构三个方面。
系统质量问题:
软件开发缺陷:在软件开发过程中可能存在的bug或隐藏的风险,这些缺陷在特定条件下被触发,可能导致系统崩溃。
硬件固件故障:如主机硬件故障,这种情况在过去也曾发生过,如2010年上交所交易系统主机HSP102的硬件固件故障导致宕机。
因此,严格的质量控制与测试流程至关重要。
运维管理问题:
容量预警和设备故障预警机制缺失:如果系统缺乏有效的容量预警和设备故障预警机制,面对高交易量冲击时可能无法有效应对,进而引发故障。
应急响应能力不足:在系统出现故障时,如果应急响应机制不够迅速和有效,也会加剧宕机的影响。
完善的运维体系应能实时监测系统状态,提前预警并及时扩容。
系统架构问题:
缺乏弹性和容错能力:理想的证券交易系统应具备弹性和容错能力,即使局部组件出现故障,也能通过冗余设计和快速切换机制保障整体系统的稳定运行。
灾备方案不完善:缺乏完善的灾备方案或灾备切换不顺畅也可能导致系统宕机。
这就要求IT服务商不仅精通技术,更要深入了解交易所业务流程,制定出适应高强度交易环境的架构方案。
总结来说, 一个稳定的交易系统需要综合考虑硬件、软件、应急机制等多个方面,并不断进行优化和完善。
上交所交易系统宕机的原因是多方面的,不过从软件测试的角度上说:
1)如果系统测试不充分,未能全面覆盖所有可能的场景和边界条件,就可能导致隐藏的缺陷在运行时被触发。
压力测试:在系统上线前应进行充分的压力测试,模拟高交易量场景下的系统表现,以发现潜在的容量瓶颈和性能问题。
故障注入测试:通过人为注入故障来测试系统的容错能力和恢复能力,确保系统在局部故障时不会引发全局性崩溃。
2)其次是测试环境与实际生产环境之间的差异也可能导致测试结果不准确。因此,应尽可能缩小这种差异,确保测试结果的可靠性。
3)在软件开发过程中实施持续集成和持续测试策略,可以及时发现并修复新引入的缺陷,降低系统宕机的风险。
点击下方“阅读原文”,挑战 年薪20万 ~