智能计算与感知实验室

Look Deep into the Microservice System Anomaly through Very Sparse Logs (WWW 2023, PDF, Code)
作者：Xinrui Jiang, Yicheng Pan, Meng Ma, Ping Wang
摘要：由于微服务系统中服务依赖的动态性，密集监测和异常诊断已成为现代微服务架构中一个棘手的问题。大多数之前的研究严重依赖完备的监测指标，而我们提出了一个基础但经常被忽视的问题：诊断指标的完整性问题。本文通过提出MicroCU来解决这个问题，这是一种使用非常稀疏的API日志诊断微服务系统的新方法。我们设计了一个称为动态因果曲线的结构，用于描绘时变的服务依赖关系，并基于Granger因果区间提出了一种时序动态发现算法。我们的算法生成了一组更平滑的因果曲线，并设计了因果单峰化的概念，以校准由缺失指标引起的因果不忠实性。最后，提出了一种基于动态因果图的路径搜索算法，以确定根本原因。对商业系统案例的实验证明，MicroCU优于许多最先进的方法，并反映了因果单峰化相对于原始指标插补的优越性。
Two-Shot Video Object Segmentation (CVPR 2023, PDF, Code)
作者：Kun Yan, Xiao Li, Fangyun Wei, Jinglu Wang, Chenbin Zhang, Ping Wang, Yan Lu
摘要：视频物体分割指的是根据视频的第一帧给出的目标物体的分割标注，将该视频剩余的帧中包含的目标物体全部分割出来，是众多视频理解任务（如视频监测、自动驾驶等）的基础。然而，尽管当前的VOS模型已经在公开数据集上达到了较高的分割精度，但依赖于视频帧的密集标注，这是既费时又费力的。本文工作发现STCN模型在每个视频只标注2帧（2-shot）的情况下依然可以获得不错的分割结果（相比全标注训练的精度在YouTube-VOS数据集上相差了2.1%），但有大量的无标签数据没有被利用到。因此，基于以上发现，本文基于2-shot VOS任务提出了一种可为无标签帧高效生成伪标签两阶段训练方法，并能够泛化到若干VOS方法使其达到跟全标注训练下相当的精度，比如对于STCN模型，可以使其在2-shot VOS任务（在数据集YouTube-VOS和DAVIS分别减少92.7%和97.1%标注量）下分别在YouTube-VOS 2019和DAVIS 2017数据集上获得85.1%和82.7%的精度，对比STCN模型在全标注情况下的精度85.2%和82.7%，性能上只有0.1%和0.0%的差距。本篇论文第一次证明了每个视频只需要标注两帧就可以进行有效的VOS任务学习的可能性，不再依赖全标注数据，为之后VOS任务的研究提供了新的方向。
Improved Wordpcfg for Passwords with Maximum Probability Segmentation (ICASSP 2023, PDF)
作者：Wenting Li; Jiahong Yang; Haibo Cheng; Ping Wang; Kaitai Liang
摘要：口令分布建模是口令安全领域中的一个基本问题，对口令猜测、口令强度评价器、蜜罐口令管理器等方面的研究和应用都具有重要意义。作为目前最佳的基于分段的口令模型之一，WordPCFG模型可以捕捉口令中的独立语义片段（称为口令词）。然而，WordPCFG的最大匹配算法在解决口令分割歧义的问题上效果不佳，导致许多口令被不合理地分割，进而影响了口令分布建模的准确性。为了更好地解决歧义，我们通过最大概率分割算法和类A*的剪枝算法对WordPCFG进行改进。实验结果表明，改进后的WordPCFG能够破解99.26%至99.95%的口令，改进幅度达到了5.67%至18.01%。
Faster, Deeper, Easier: Crowdsourcing Diagnosis of Microservice Kernel Failure from User Space (ISSTA 2021, PDF, Code)
作者：Yicheng Pan, Meng Ma, Xinrui Jiang, Ping Wang
摘要：随着云原生架构的广泛应用，越来越多的Web应用选择构建在微服务上。与此同时，由于异常传播的高动态性和复杂性，故障排除变得充满挑战。现有的诊断方法主要依赖于从微服务系统内核端收集的监控指标。在没有全面监控基础设施的情况下，应用所有者甚至云运营商无法借助这些内核空间的解决方案。本文总结了在运营一流商业云平台方面的一些见解。然后，我们首次提出了针对微服务内核故障的用户空间诊断的概念。为此，我们开发了一种众包解决方案——DyCause，以解决不对称诊断信息问题。DyCause以分布式方式部署在应用端。通过轻量级的API日志共享，应用共同收集内核服务的操作状态，并按需启动诊断。由于我们对内核没有任何架构和功能要求，因此部署DyCause是快速且轻量级的。为了从不对称的诊断信息中揭示更准确的相关性，我们设计了一种新颖的统计算法，可以有效地发现服务之间的时变因果关系。该算法还帮助我们建立异常传播的时间顺序。因此，通过使用DyCause，我们可以在有限的指标下获得更深入和可解释的诊断线索。我们在模拟测试平台和真实云系统上应用和评估了DyCause。实验结果验证了DyCause在用户空间运行的准确性优于内核上运行的几种最先进的算法。此外，DyCause在算法效率和数据敏感性方面显示出卓越的优势。简而言之，与其他基线相比，DyCause在分析较少或更稀疏的指标时产生了显著更好的结果。总之，DyCause更快速，分析更深入，部署更容易。

Look Deep into the Microservice System Anomaly through Very Sparse Logs (WWW 2023, PDF, Code)

Two-Shot Video Object Segmentation (CVPR 2023, PDF, Code)

Improved Wordpcfg for Passwords with Maximum Probability Segmentation (ICASSP 2023, PDF)

Faster, Deeper, Easier: Crowdsourcing Diagnosis of Microservice Kernel Failure from User Space (ISSTA 2021, PDF, Code)