祝贺实验室博士研究生姜欣睿论文被服务计算领域国际顶会ICWS-24接收
近日,北京大学智能计算与感知实验实验室博士研究生姜欣睿同学以第一作者投稿的论文“G-Cause: Parameter-free Global Diagnosis for Hyperscale Web Service Infrastructures”被ICWS-2024录用,论文通讯作者为智能计算与感知实验室主任王平教授和实验室态势计算团队负责人马萌老师。ICWS国际会议在2024年共收到投稿409篇,其中接收80篇,中稿率为19.56%。
该论文聚焦于大规模网络服务设施中进行全局诊断并实现根因定位的任务,可在以下链接查看:https://github.com/jxrjxrjxr/G-Cause/blob/main/G_Cause_github.pdf (代码可运行,欢迎Star)。
在大规模网络服务设施(如大规模微服务架构系统或服务器集群)中进行故障诊断的问题在过去的数年中受到了业界和学术界的广泛关注。目前的方法大多着眼于服务级别的诊断,而无法提供更细粒度的分析依据和定位准确度。该论文针对于此提出了全局诊断的任务,即在服务级别、主机级别等多层次进行联合诊断并实现细粒度的根因定位。
全局诊断不同于以往的单层次根因定位问题,存在低层次诊断指标异构、正负样本不均衡等挑战。为了应对这些挑战,该论文首先提出了一种构建多频段因果图的方法。通过对指标进行小波分解(如图1所示),在分解后的多个高频频段和一个低频频段上分别实施成对的Granger因果检验方法,该论文可以构建指标分频段的因果关联关系图。这种多频段因果图和传统的根因分析任务中的单一因果图相比,更能充分发掘异构指标的频段差异,从而更精细地刻画异构指标之间的因果关系。
图 1 指标序列的离散小波分解
此外,为了解决诊断时正负样本不均衡的挑战,该论文考虑在不同时段中分别发掘意义不同的指标间因果关系。图2是整体算法思路的示意图。该论文首先保持与以往根因定位技术一致,使用异常时段的系统指标数据生成异常时段因果图,它刻画指标之间由异常时段反映的因果关联。考虑到一些固有内在因果关联对异常时段因果图的干扰,该论文使用历史时段的指标数据进行多次随机采样,生成历史时段因果图。它刻画固有的非异常的因果关联。通过结合这两种因果图,该论文生成异常相关因果图,并在其上进行随机游走以实现根因定位。该技术在业界真实的多个故障诊断场景下得到了验证,并取得了目前最优的结果。
图 2 该论文提出的全局诊断流程
ICWS由IEEE服务计算技术委员会发起,是服务计算领域规模最大、水平最高的系列国际学术会议,是中国计算机学会(CCF)推荐的B类国际会议。ICWS2024将于7月7日至13日于中国深圳召开。