Look Deep into the Microservice System Anomaly through Very Sparse Logs (WWW 2023, PDF, Code)
作者:Xinrui Jiang, Yicheng Pan, Meng Ma, Ping Wang
摘要:由于微服务系统中服务依赖的动态性,密集监测和异常诊断已成为现代微服务架构中一个棘手的问题。大多数之前的研究严重依赖完备的监测指标,而我们提出了一个基础但经常被忽视的问题:诊断指标的完整性问题。本文通过提出MicroCU来解决这个问题,这是一种使用非常稀疏的API日志诊断微服务系统的新方法。我们设计了一个称为动态因果曲线的结构,用于描绘时变的服务依赖关系,并基于Granger因果区间提出了一种时序动态发现算法。我们的算法生成了一组更平滑的因果曲线,并设计了因果单峰化的概念,以校准由缺失指标引起的因果不忠实性。最后,提出了一种基于动态因果图的路径搜索算法,以确定根本原因。对商业系统案例的实验证明,MicroCU优于许多最先进的方法,并反映了因果单峰化相对于原始指标插补的优越性。
Two-Shot Video Object Segmentation (CVPR 2023, PDF, Code)
作者:Kun Yan, Xiao Li, Fangyun Wei, Jinglu Wang, Chenbin Zhang, Ping Wang, Yan Lu
摘要:视频物体分割指的是根据视频的第一帧给出的目标物体的分割标注,将该视频剩余的帧中包含的目标物体全部分割出来,是众多视频理解任务(如视频监测、自动驾驶等)的基础。然而,尽管当前的VOS模型已经在公开数据集上达到了较高的分割精度,但依赖于视频帧的密集标注,这是既费时又费力的。本文工作发现STCN模型在每个视频只标注2帧(2-shot)的情况下依然可以获得不错的分割结果(相比全标注训练的精度在YouTube-VOS数据集上相差了2.1%),但有大量的无标签数据没有被利用到。因此,基于以上发现,本文基于2-shot VOS任务提出了一种可为无标签帧高效生成伪标签两阶段训练方法,并能够泛化到若干VOS方法使其达到跟全标注训练下相当的精度,比如对于STCN模型,可以使其在2-shot VOS任务(在数据集YouTube-VOS和DAVIS分别减少92.7%和97.1%标注量)下分别在YouTube-VOS 2019和DAVIS 2017数据集上获得85.1%和82.7%的精度,对比STCN模型在全标注情况下的精度85.2%和82.7%,性能上只有0.1%和0.0%的差距。本篇论文第一次证明了每个视频只需要标注两帧就可以进行有效的VOS任务学习的可能性,不再依赖全标注数据,为之后VOS任务的研究提供了新的方向。
Improved Wordpcfg for Passwords with Maximum Probability Segmentation (ICASSP 2023, PDF)
作者:Wenting Li; Jiahong Yang; Haibo Cheng; Ping Wang; Kaitai Liang
摘要:口令分布建模是口令安全领域中的一个基本问题,对口令猜测、口令强度评价器、蜜罐口令管理器等方面的研究和应用都具有重要意义。作为目前最佳的基于分段的口令模型之一,WordPCFG模型可以捕捉口令中的独立语义片段(称为口令词)。然而,WordPCFG的最大匹配算法在解决口令分割歧义的问题上效果不佳,导致许多口令被不合理地分割,进而影响了口令分布建模的准确性。为了更好地解决歧义,我们通过最大概率分割算法和类A*的剪枝算法对WordPCFG进行改进。实验结果表明,改进后的WordPCFG能够破解99.26%至99.95%的口令,改进幅度达到了5.67%至18.01%。
Faster, Deeper, Easier: Crowdsourcing Diagnosis of Microservice Kernel Failure from User Space (ISSTA 2021, PDF, Code)
作者:Yicheng Pan, Meng Ma, Xinrui Jiang, Ping Wang
摘要:随着云原生架构的广泛应用,越来越多的Web应用选择构建在微服务上。与此同时,由于异常传播的高动态性和复杂性,故障排除变得充满挑战。现有的诊断方法主要依赖于从微服务系统内核端收集的监控指标。在没有全面监控基础设施的情况下,应用所有者甚至云运营商无法借助这些内核空间的解决方案。本文总结了在运营一流商业云平台方面的一些见解。然后,我们首次提出了针对微服务内核故障的用户空间诊断的概念。为此,我们开发了一种众包解决方案——DyCause,以解决不对称诊断信息问题。DyCause以分布式方式部署在应用端。通过轻量级的API日志共享,应用共同收集内核服务的操作状态,并按需启动诊断。由于我们对内核没有任何架构和功能要求,因此部署DyCause是快速且轻量级的。为了从不对称的诊断信息中揭示更准确的相关性,我们设计了一种新颖的统计算法,可以有效地发现服务之间的时变因果关系。该算法还帮助我们建立异常传播的时间顺序。因此,通过使用DyCause,我们可以在有限的指标下获得更深入和可解释的诊断线索。我们在模拟测试平台和真实云系统上应用和评估了DyCause。实验结果验证了DyCause在用户空间运行的准确性优于内核上运行的几种最先进的算法。此外,DyCause在算法效率和数据敏感性方面显示出卓越的优势。简而言之,与其他基线相比,DyCause在分析较少或更稀疏的指标时产生了显著更好的结果。总之,DyCause更快速,分析更深入,部署更容易。