CNCC2025
CNCC(中国计算机大会)是一个宏观论述技术趋势的大会,汇聚两院院士、国内外顶尖学者、知名企业家等领域专家,展望前沿趋势,分享创新成果。CNCC旨在为参会者呈现一场精彩宏大的专业盛宴,期待所有人在这场盛宴中能够有所受益,提升自身专业价值,获得前行动能。
CNCC2025将于10月22-25日在黑龙江省哈尔滨市举办,大会主题为“数智赋能,无限可能”。
2024年度CCF-华为胡杨林基金数据库专项结题研讨会作为CNCC2025的重要专题论坛,将于10月25日13:30-17:30,在黑龙江省哈尔滨市华旗饭店-5层505开展。本次大会邀请了20位余专家学者,围绕2024年度10个研究创新型项目交流并结题评优。议题覆盖数据库智能管理、安全隐私、软硬协同等技术方向。届时将通过Gauss松鼠会B站同步直播,欢迎大家准时观看~
聚焦会议议程
报告&专家简介
郝爽
报告题目:面向AI任务的表格数据迭代式治理
报告摘要:本项目聚焦面向AI任务的表格数据迭代式治理技术,围绕数据质量在人工智能时代的关键作用,提出模型感知的表格数据治理新范式,旨在解决现有方法中AI对数据语义理解不足、数据变动影响难评估、清洗策略缺乏模型反馈驱动等核心难题,通过构建融合表格数据表示学习与检索增强技术的理论体系,发展基于模型表现反馈的闭环治理机制,形成可落地的科学方法与原型系统,在保障模型准确率的同时显著降低计算与人力成本,最终实现从数据治理到模型协同优化的全链条突破。
个人简介:北京交通大学计算机科学与技术学院副教授,硕士生导师。CCF数据库专委执委,2018年于清华大学计算机科学与技术系获得博士学位。主要研究方向为数据治理、数据库等。主持国家自然科学基金面上项目和青年项目,参与国家重点研发计划等多项国家级课题,相关成果发表在VLDB、ICDE、AAAI、TKDE、VLDBJ等国际顶级会议和期刊上,曾获得ICDE最佳论文奖候选。担任VLDB、ICDE、KDD、AAAI、IJCAI等多个国际顶级会议程序委员会委员。
张奥千
报告题目:面向AI任务的表格数据治理
报告摘要:表格数据以其清晰、规范的结构,可以作为支持人工智能、大数据分析、业务决策等关键任务的基础。然而,表格数据不同于文本数据起步网校,具有横向纵向的关联,其语义和数据模式与标题强相关,这些特征使得AI模型比如LLM容易更难以理解表格的含义。本项目拟设计面向AI任务的表格数据治理技术,实现高效的数据分析、数据清洗和数据转换,显著提升表格问答、表格预测以及表格分析任务的成功率和准确度,期望数据库能够端到端产生大模型能够理解的输入,并且引导大模型完成基于表格的 AI 任务。
个人简介:北京理工大学计算机学院助理教授,2018年博士毕业于清华大学。主要从事数据库与数据治理方向的研究。在计算机国际顶级会议和期刊(CCF-A,包括SIGMOD、VLDB、ICDE、VLDBJ、TKDE、TODS)上共发表论文10余篇。根据谷歌学术统计,申请人论文共被引用684次。获得国家自然科学基金青年项目“面向分布式IoT数据的流式清洗关键技术研究”,国家重点研发计划课题“区块链环境下海量多模态数据管理关键技术与系统(事务处理与可扩展共识)”。
姚斌
报告题目:支持动态数据更新的实时向量索引和查询优化技术
报告摘要:高维向量实时索引研究基础之一是如何在高维向量增删改后实时调整更新索引。从更新的角度出发,现有的方法可分为基于累积更新和基于局部更新的方法,前者在更新发生时,累积过程开销较小,但以图索引为例,合并时仍然需要对图的结构进行开销昂贵的复杂修改。后者更新时只针对特定聚类子空间进行更新,减少了更新范围从而减低了更新压力。但这种更新时有可能需要重新分配向量和计算质心,进一步导致相邻质心也需要更新,从而引发连锁更新,导致更新时延较长。本研究采用均匀边添加策略,构造不同跳数分辨率的多层图,每层边对应底层跳数不同。查询时,从高到低提高逐步提高搜索层的分辨率,直至底层进行局部贪婪搜索。达到构建开销低,更新局部性和维护低成本效果。
个人简介:上海交通大学教授cocoa,博士生导师,国家优青,国家技术发明二等奖获得者。主要研究领域为数据库、大数据分析、数据驱动的人工智能等。已发表高质量学术论文80余篇,论文发表在SIGMOD、AAAI、IJCAI、SIGKDD、VLDBJ、TKDE等国际著名会议及期刊上。曾获2018、2022年上海市技术发明一等奖,2019年国家技术发明二等奖。主持和参与国家自然科学基金8项;参与国家 973、863 计划,重点研发计划6项;主持产学研企业合作项目30余项;获阿里巴巴2019、2023年度优秀学术合作项目奖,华为2022年火花奖。获得国家发明专利30余项。
巩树凤
报告题目:基于日志结构的高效动态向量索引图存储结构研究
报告摘要:大模型推理Cache的管理是向量近邻查询的典型场景。向量数据库中不断新增新的查询问题和结果,同时删除过时的查询问题和结果。在大批量或者频繁向量数据集更新的场景下,保证索引能够实时完成更新,更新后的索引要能维持其索引质量,保持查询的召回率和查询延迟不降低是一大挑战。本课题提出了一种基于日志结构的动态向量图索引,将数据按照时间分片存储,并且每个分片建立单独的索引,将更新限制在小的分区内,同时提出了分区内轻量级更新算法,避免I/O开销,降低计算量,在实现高效的更新性能同时,保持召回率与查询延迟不劣化。
个人简介:东北大学计算机学院讲师,博士生导师,CCF数据库&分布式计算与系统专委执委。主要研究方向为高维向量相似性挖掘,图计算与存储系统,增量计算理论和系统。曾获CCF自然科学二等奖、ACM SIGMOD中国优秀博士论文奖、辽宁省优秀博士、硕士学位论文奖等奖励。在VLDB,ICDE,《TPDS》等国际顶级会议或期刊发表论文十余篇。
杨定裕
报告题目:基于分布式流处理的向量索引动态更新与GPU加速查询优化研究
报告摘要:在推荐、搜索等大模型应用的场景中,需要快速查询实时向量数据cocoa,但当前多数ANNS系统适合于静态或缓慢变化的数据,缺乏对高频插入、删除的支持。当前业界CPU方案支持动态更新但吞吐量不高,GPU方案虽搜索性能高但因线程同步代价高而难以处理更新操作。本项目设计了一套统计的CPU/GPU协同框架,在大规模、高频更新的实时向量检索中同时实现高吞吐、低延迟与高召回率,有效突破 GPU 内存瓶颈并减少数据传输开销。
个人简介:浙江大学区块链与数据安全全国重点实验室专职研究员,CCF数据库&协同计算专委执委。研究方向包括分布式流处理与优化,大模型向量检索、软硬一体集群性能优化,在 CCF 推荐会议和期刊上发表论文30余篇 ,包含PVLDB、SIGMOD、WWW、ASE、VLDB Journal、ICPP等。曾就职于阿里巴巴集团,获得阿里巴巴双十一勇于冲锋奖、卓越个人奖、丹甲金戎奖,2024年加入浙江大学区块链与数据安全全国重点实验室。主持国家自然科学青年基金等项目。
苗东菁
报告题目:压缩态数据的向量化执行引擎
报告摘要:在现代OLAP场景下,列存数据库成为处理大规模分析任务的首要选择。为了平衡数据IO开销与解压缩的CPU开销,现有的列存数据库大多选用轻量级压缩方式(如字典压缩,RLE压缩等)。这些轻量级压缩方式保留了可被解读的语义信息,提供了在压缩态数据上直接执行查询操作的可能。在压缩态数据上进行执行,既可以削减解压的开销,同时具备通过压缩信息进一步减少运算量的潜力,可以有效地提升数据库系统的分析性能。现有系统(如DB2 BLU,DuckDB)实现了在部分压缩态数据上的扫描和基础过滤,但是缺少对更多算子的系统性支持。因此,本报告在现有研究基础上,进一步地实现了对不同压缩态数据的多个算子支持,实现了对应场景的性能提升。
个人简介:哈尔滨工业大学教授、博士生导师,CCF 数据库& 理论计算机科学专委执委,黑龙江省大数据科学与工程重点实验室副主任,黑龙江省自然科学基金“优秀青年基金”获得者,国家级一流本科课程《数据结构与算法》负责人。现于海量数据计算研究中心从事大数据计算与质量管理、数据库系统等方面理论与技术研究,“面向跨模型分析型负载的数据存储方法”方面研究获得国家自然科学基金、黑龙江省自然科学基金等资助。发表数据库系统技术、理论计算机科学等领域国际顶级刊期与会议学术论文 40 余篇,包括 The VLDB Journal, IEEE Transactions on Knowledge and Data Engineering, Theoretical Computer Science, SIGMOD, SIGKDD, VLDB, ICDE, COCOON等。数据一致性管理基础理论和关键技术方面研究成果获得 2018 CCF优秀博士论文奖,2019 ACM SIGMOD CHINA RISING STAR AWARD 奖。2018 年入选哈工大青年拔尖人才选聘计划,主持国家自然科学基金面上项目,作为骨干成员参研了包括国家基础研发 973 项目、国家重点研发计划、国家自然科学基金重大、重点项目在内的多个国家级项目。担任COCOON、DASFAA、COCOA 等多个知名国际会议程序委员会主席、委员等。国际顶级算法期刊Algorithmica Leading Guest Editor,多个国际顶级期刊Algorithmica, IEEE Transactions on Knowledge and Data Engineering, Theoretical Computer Science 等审稿人。
李文海
报告题目:面向用户态文件系统的NUMA感知I/O调度算法
报告摘要:项目实现了一种基于透明挂钩的用户态异步I/O调度模式,借助运行时链接技术将所有文件系统调用截获并推送至调度器I/O线程,初步实现面向数据库HTAP的高效I/O框架;重点面向传统文件系统(如ext4等)的读写请求设计NUMA架构下的I/O调度器,通过uring执行批量读写和数据库线程唤醒;实验结果表明:基于透明挂钩技术的NUMA优化在不改变openGauss/openEuler内核代码的前提下tpmC较原有系统提高了30%以上,CPU利用率降低了75%。
个人简介:武汉大学计算机学院副教授、博士生导师。主要研究方向为知识发现理论、数据库理论、异构数据集成。已在SIGMOD、ACM TOS、Information Systems等国内外知名刊物上发表论文50余篇;主持国家重点研发计划课题2项、国家自然科学基金2项、重点实验室开放基金多项,参与过863重大项目多项;主持多项军口和企业软件研发合作项目。
王平辉
报告题目:轻量实时统计信息收集
报告摘要:在高并发事务处理(TP)场景中,频繁的数据更新容易导致统计信息——包括不同值数量(NDV)、最常见值(MCV)及直方图等——迅速过时,进而造成选择率估计偏差和执行计划劣化,严重影响查询性能。传统基于采样的方法往往难以在实时性、准确性和系统开销之间取得平衡,尤其在快速识别新插入的高频值方面存在明显不足。为应对这些挑战,本项目致力于研究轻量实时的统计信息收集机制,通过融合数据数据梗概(Sketch)技术与动态采样技术,提出适用于高频增删场景的低开销统计信息更新算法。该算法能够在数据发生变更时以轻量、实时和增量的方式维护统计信息。基于这一技术,本项目进一步设计并实现了面向海量数据动态更新场景的轻量实时统计信息收集原型系统,为高并发TP型数据库提供可靠、高效的统计信息管理能力。
个人简介:西安交通大学教授/博士生导师,网络空间安全学院副院长,国家优秀青年科学基金获得者。主要研究方向为大数据、智能服务、智能运维与网络安全等,研究成果在中国移动集团和华为公司落地应用,服务用户数亿人次。在 SIGMOD、KDD、NeurIPS、ACL、IEEE TKDE、IEEE TIFS 等中国计算机学会(CCF)推荐的 A 类会议/期刊上发表学术论文70 余篇,培养学生入选华为天才少年计划。
骆昱宇
报告题目:数据库智能攻击检测系统
报告摘要:数据库智能攻击检测系统构建了基于大模型的“攻-防对抗闭环”架构。攻击智能体利用大模型动态生成复杂SQL注入样本。防御智能体采用LoRA微调的大模型实时检测,并输出完整推理链以提升可解释性。系统引入教师–学生推理对齐机制:教师模型提供最优推理链指导学生模型生成解释性检测结果,提高检测准确性和推理一致性。闭环策略赋予系统自我演化能力,攻防能力不断增强;同时还构建了高质量、多层次SQL注入检测基准数据集,为后续研究奠定基础。
个人简介:香港科技大学(广州)助理教授,香港科技大学联署助理教授。主要研究方向为数据库系统、大数据管理与智能分析,在CCF A类会议和期刊(如SIGMOD、VLDB、ICDE)发表论文30余篇。曾获2023年CCF博士学位论文激励计划提名、Best-of-SIGMOD 2023 Papers、2023年福布斯中国30位30岁以下精英榜、清华大学优秀博士学位论文、清华大学特等奖学金、DASFAA 2019 最佳学生论文奖等荣誉。
吴云乘
报告题目:多方数据库的高性能共享计算
报告摘要:在数据共享需求日益增长与数据隐私保护法规日趋严格的背景下,如何在保障数据隐私安全的前提下实现多方数据的高效协同计算成为关键挑战。现有方案多需要依赖特定硬件或者因采用复杂密码学技术导致计算效率低下,并且仅支持粗粒度的隐私规则,难以满足各方差异化的隐私需求。为此,我们设计并实现了一套支持细粒度隐私需求的多方数据库高性能共享计算系统。具体而言,我们提出了一种允许各方灵活定义行、列级隐私需求的规则语法,并研发了基于该隐私规则的推导和查询优化引擎,从而生成兼顾安全与效率的查询计划。在TPC-H测试基准上的初步实验结果表明,所提方案的执行效率优于SMCQL和Secrecy等系统,验证了所提方案能有效降低多方数据库共享计算的开销
个人简介:中国人民大学信息学院副教授,中国人民大学吴玉章青年学者。曾担任新加坡国立大学博士后研究员、研究助理教授。研究方向包括:隐私计算、数据安全等。相关研究成果在SIGMOD、VLDB、ICDE、TKDE等国内外学术期刊和学术会议上发表论文30余篇,获SIGMOD 2024系统奖、ICDE 2024最佳论文提名奖,申请/授权发明专利4项。近年来担任数据库顶级会议包括VLDB和ICDE在内的多个CCF A类会议的程序委员会委员以及TKDE、TIFS等CCF A类期刊的审稿人,担任国际会议VLDB 2024的Demonstration Track联合主席和BigComp 2023的Workshop联合主席。
欢迎观看直播
Gauss松鼠会B站将会对2024年度CCF-华为胡杨林基金数据库专项结题研讨会进行同步直播,未到现场参会的朋友可通过直播间观看:网页链接?
线下展台等您
如果您是CNCC2025大会线下参会嘉宾,欢迎到展台区域-华为展台,进一步和华为专家交流探讨数据库技术与合作。同时,展台区为您准备了精美小礼品~

