祝贺实验室博士研究生姜欣睿论文被数据挖掘领域顶会KDD 2026录用

近日,北京大学智能计算与感知实验室博士研究生姜欣睿同学作为第一作者投稿的论文“CAVIAR: Disentangling Root Causes with an ICA-based VAE for Large-Scale Microservice Systems”被KDD 2026录用。该论文的指导老师为智能计算与感知实验室马萌副研究员与王平教授。 

现代微服务架构在带来部署灵活性的同时,也产生了海量的异构监控数据,使得故障诊断变得异常困难。传统的根因分析(RCA)方法在面对高维、多源的复杂数据时,往往面临可扩展性差、依赖人工筛选指标等瓶颈,难以在成千上万个指标中快速精准地定位故障源。 

针对这一挑战,我们提出了一种基于因果分析的创新框架CAVIAR(Causality-based Analysis via VAE and ICA for Anomaly Root-cause)。如图一所示,CAVIAR采用两阶段设计:首先,通过融合独立成分分析(ICA)的变分自编码器(VAE),将大规模异构指标解耦为低维、语义清晰的潜在因子(如特定的“服务负载”或“网络状态”),从而学习系统的正常运行模式;其次,在故障发生时,将异常视为对某一潜在因子的外部“干预”,通过优化干预矩阵来锁定故障维度,并将其映射回原始物理指标,实现可解释的根因定位。

 image.png

图一 CAVIAR根因分析框架概览 

CAVIAR在工业级数据集IBM_Cloud和包含超过1300个指标的大规模公开数据集LEMMA上进行了广泛验证。实验结果表明,CAVIAR在准确性上显著优于RUN、CausalRCA等现有最先进方法,并且是少数能在不进行指标预筛选的情况下处理大规模高维数据的方法。此外,CAVIAR通过潜在空间的可视化(如图二所示),能够清晰地揭示故障在微服务间的传播路径,为运维人员提供了直观、可操作的诊断解释。

 image.png

图二 CAVIAR在LEMMA数据集上的故障干预矩阵可视化与指标归因

 ACM SIGKDD(International Conference on Knowledge Discovery and Data Mining)是数据挖掘与知识发现领域的国际顶级会议,也是中国计算机学会(CCF)推荐的A类会议,享有极高的学术声誉。KDD 2026将于2026年8月在韩国举办。


CLOSE