本文版权归原作者所有,未经授权,不得转载
数据模式感知的云日志压缩存储方法研究
Research on Data-pattern-aware Compression and Storage Method of Cloud Logs
作 者:魏钧宇
指导教师:薛巍
培养院系:计算机系
学 科:计算机科学与技术
读博感言:路虽远,行则将至;事虽难,做则必成。
云日志数据广泛服务于故障诊断、系统建模、安全检查等多类应用,具有规模庞大、产生迅速和长期存储的特点。然而,现有的日志存储方法难以满足PB量级云日志数据的高密压缩、低延迟检索和快速写入等存储需求。
本文对大规模云日志的压缩存储方法开展研究。
首先对生产系统中的大量云日志及其检索负载进行了系统性分析观察,提出了一系列数据模式感知的云日志压缩存储方法。面向离线日志归档存储、近线日志运维查询以及近线日志实时写入等场景,设计并实现了压缩存储原型系统。部分成果已在实际生产系统中获得应用。
PB量级海量云日志高密压缩和低延迟检索方法
主要研究内容间的逻辑关系
提出了数据模式感知的云日志结构化策略,可在保证高压缩率的前提下,显著提升细粒度存储单元内的数据共性;提出了基于定制化编码的离线云日志高密压缩方法LogReducer,压缩率提升达 5.30倍,压缩速度提升达182.31倍;提出了双态模式驱动的近线云日志压缩存储方法 LogGrep,同现有方法相比,LogGrep的检索延迟降低2个数量级以上,同时总存储开销降低60%以上;提出了基于两阶段模式提取的云日志快速压缩存储方法LogCrisp,可在保证高密压缩和低延迟检索的前提下,将日志写入速度提升3.80倍。
何为优博微展?
优博微展是清华大学应届优秀博士毕业生论文精华的呈现,由清华大学研究生院联合各院系收集并发布,旨在对我校博士研究生的阶段性学术成果和在校时期科研成绩进行简要、集中展示。
作者、图片:魏钧宇
组稿、校阅:楚若冰
统筹:研究生院培养办
编辑与设计:研究生院综合办