关键词:
数据处理
超图聚类
遗传算法
集对分析理论
超图约简
多阶段聚类
超图模块度
摘要:
超图作为普通图的高维推广,能够更加灵活地反映节点间的高阶复杂关系.超图聚类旨在发现超图结构中复杂的高阶关联关系.针对目前超图聚类结果不稳定、容易陷入局部最优等问题,结合超图划分思想,提出一种多阶段超图聚类(multi-stage hypergraph clustering,MSHC)算法,该算法将超图聚类过程分为超图约简、超图初始聚类以及优化迁移3个阶段.在超图约简阶段,提出一种不改变超图结构的快速约简方法,降低了后续算法的复杂度;提出基于集对分析理论的超图节点间相似性度量方法,并采用层次聚类方法对超图进行初始聚类,采用4种不同的类簇合并计算方法,增加聚类方案的多样性;将遗传算法应用于优化超图聚类方案的研究中,以此获得最优超图聚类方案.在3个不同规模的数据集上与4个经典的超图聚类方法进行对比实验,结果表明,MSHC算法在Songs_genres数据集和Papers_keywords数据集上超图模块度指数分别提高了0.0797和0.0777,在Movies_genres数据集上仅降低0.0060.