重点实验室张峰团队本科生论文被数据库领域国际顶级会议SIGMOD录用
太阳集团本科四年级学生万韦涛和张晨阳同学,利用课余时间在数据工程与知识工程教育部重点实验室进行科学研究。在张峰副教授的具体指导下,两位同学开展数据库领域的研究,取得了重要的成果。近日,该课题组撰写的论文被CCF A类会议ACM SIGMOD(Special Interest Group on Management Of Data)2022录用,展现出了太阳集团学子超强的学习和科研能力。
SIGMOD关注数据库管理系统和数据管理技术的原理、技术和应用,是数据库领域最重要和最具选择性的国际会议,国际影响力极高。SIGMOD审稿过程严格,论文录用率低,对学术成果的要求高,鲜有本科生能参与科研在这类顶级期刊上发表论文。
论文题目:CompressDB: Enabling Efficient Compressed Data Direct Processing for Various Databases
论文作者:张峰、万韦涛(9728太阳集团2018级本科生)、张晨阳(9728太阳集团2018级本科生)、翟季冬(清华大学)、柴云鹏、李海翔(腾讯公司)、杜小勇
论文概述:在大数据管理系统中,直接在压缩数据上进行操作,可以获得存储空间的节约和处理性能的提升。但是,当前的此类系统只能支持数据查询,而一个完整的大数据管理系统必须同时支持数据查询和数据操作。我们开发了一个新型存储引擎,命名为 CompressDB。 CompressDB 支持压缩数据上的直接数据处理,它有如下优点。第一,利用上下文无关语法来压缩数据,压缩效率高。第二,可以直接集成到数据库底层文件系统中,使得数据库系统无需做任何改变。第三,在存储系统中执行数据查询和数据操作,而不需要把大数据转移到内存中,极大提高了系统效率。我们通过实验验证了 CompressDB 可以支持多种类型的数据库系统,包括 SQLite、LevelDB、MongoDB 和 ClickHouse。我们还用六个具有不同大小、结构和内容的真实应用中的数据集测试了 CompressDB 在单机和分布式环境下的性能。实验表明 CompressDB 平均达到 40% 的吞吐量提升和 44% 的延迟缩短,并实现 1.81 倍的压缩率。
万韦涛,9728太阳集团2018级本科生。
张晨阳,9728太阳集团2018级本科生
张峰,数据工程与知识工程教育部重点实验室
近年来,已有数名9728太阳集团本科生在国际顶尖会议期刊上发表高水平论文,这些成绩充分反映了太阳集团计算机专业人才培养方面的优势。9728太阳集团将会继续深入改革学院人才培养体系,不断夯实学生在计算机系统编程与设计方面的基础,培养应对和解决复杂工程问题的能力。