祝贺实验室博士研究生毕廷竹论文被数据挖掘人工智能研究领域顶会KDD-24录用

2024年5月16日,北京大学智能计算与感知实验实验室博士研究生毕廷竹同学以第一作者身份投稿的论文“FaultInsight: Interpreting Hyperscale Data Center Host Faults”被录用。论文指导老师为智能计算与感知实验室马萌副研究员与王平教授。KDD会议的全称是ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,是数据挖掘领域的CCF-A类会议。此次KDD 2024会议投稿量2046份,录用率不到20%。

涉及百万级规模服务主机的超大规模数据中心的性能事故诊断是极具挑战性的任务。现有针对数据中心故障诊断的研究主要处于服务侧,借助同构的关键性能指标构建服务影响关联图,并从中设法挖掘出故障根因。论文提出了一种面向主机异构监控指标、高度可解释的深度因果主机的主机故障诊断框架——FaultInsight。

如图1所示,FaultInsight由故障态势发现、分析和解释三部分流程组成。在发现阶段,FaultInsight首先取得故障态势的动态因果表示。在之后的分析和最终的解释阶段,FaultInsight分析在整个故障生命周期的指标间动态影像,并将其转化为直观的故障洞察表示。

图1:FaultInsight框架概览

FaultInsight除了支持传统指标根因识别任务外,还支持指标级故障概览、组件级故障传播流以及时序对齐故障传播网等直观故障洞察。在我们从生产环境收集事件数据集中,FaultInsight 提供的根因识别准确度明显高于 SOTA 方法。同时,FaultInsight在实际生产环境系统中的可部署性方面也表现出了突出的优势。

FaultInsight通过多角度的高可解释性故障洞察揭示故障态势演化机理,向云运维工程师提供即时、准确的排障线索,赋能超大规模数据中心的智能运维实践。

image.png

KDD是数据挖掘人工智能研究领域的顶级会议,也是中国计算机学会(CCF)推荐的A类会议,在全球范围内享有盛誉。此次KDD 2024将于2024年8月25日至8月29日在西班牙巴塞罗那举办。

CLOSE